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译 者 序 


当下 互联 网 行业 飞速 发 展 ， 快 速 的 业务 更 新 和 产品 迭代 给 系统 开发 技术 和 模式 带 来 新 的 挑 
战 。 随 着 业务 场景 的 日 益 丰富 以 及 业务 数据 的 积累 和 沉淀 ， 多 元 化 搜索 、 数 据 挖掘 、 自 然 
语言 处 理 、 多 媒体 学 习 、 语 音 处 理 、 个 性 化 推荐 等 已 经 成 为 当下 互联 网 系统 中 所 必 备 的 技 
术 体 系 。 而 在 所 有 这 些 技术 体系 的 背后 ， 深 度 学 习 都 发 挥 着 巨大 的 作用 ， 另 外 在 日 常 开发 
过 程 中 的 应 用 也 非常 广泛 。 因 此 ， 诬 度 学 习 便 然 成 为 人 工 智 能 领域 最 热门 的 研究 方向 。 


深度 学 习作 为 机 器 学 习 的 一 个 分 文 ， 近 年 来 得 到 了 长 足 的 发 展 。 这 度 学 习 的 概念 源 于 人 工 
神经 网 络 的 研究 ， 本 质 上 是 包含 多 个 隐藏 层 的 多 层 感知 器 结构 。 神 经 网 络 是 一 个 复杂 的 概 
念 ， 既 包含 丰富 的 理论 体系 ， 也 涉及 大 量 的 数学 推导 工作 。 如 何 高 效 理解 和 掌握 神经 网 络 
是 深度 学 习 初 学 者 所 面临 的 一 大 挑战 。 为 此 ， 我 们 首先 需要 具备 基本 的 思维 模型 ， 并 理解 
神经 网 络 的 组 成 结构 以 及 运行 原理 。 接 着 ， 通 过 从 零 开始 构建 深度 学 习 模型 ， 来 理解 深度 
学 习 中 各 个 核心 组 件 的 原理 和 运行 效果 。 然 后 ， 有 了 前 面 的 基础 ， 进 一 步 学 习 面 向 特定 应 
用 场景 的 卷 积 神经 网 络 (CNN) 以 及 循环 神经 网 络 (RNN)。 最 后 ， 通 过 一 款 主流 的 深度 
学 习 开 发 框架 来 把 所 掌握 的 深度 学 习 模型 应 用 到 系统 开发 过 程 中 。 这 对 掌握 次 度 学 习 技 术 
而 言 是 一 种 合理 的 学 习 方 法 论 。 


本 书 正 是 基于 上 述 方法 论 来 对 深度 学 习 的 方方面面 展开 讨论 的 ， 在 内 容 上 详细 阐述 了 关于 
这 度 学 习 的 以 下 核心 主题 。 


。 理解 深度 学 习 的 思维 模型 和 基本 原理 ， 对 理解 神经 网 络 所 需 的 函数 、 导 数 、 链 式 法 则 等 
基本 概念 进行 讨论 和 推导 ， 并 分 析 神 经 网 络 的 基本 结构 。 
构建 深度 学 习 模 型 ， 从 零 开 始 构 建 一 球 能 够 运行 的 深度 学 习 模 型 ， 并 和 光 握 损失 函数 、 动 
量 、 学 习 率 衰减 、droponut 等 核心 组 件 。 
构建 CNN 和 RNN， 在原 有 深度 学 习 模 型 的 基础 上 结合 具体 业务 场景 ， 了 解构 建 这 两 种 
典型 神经 网 络 的 系统 方法 。 
使 用 PyTorch 实践 神经 网 络 ， 用 PyTorch 这 款 主流 的 深度 学 习 开发 框架 来 实现 各 种 神经 
网 络 模 型 。 
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作者 塞 思 。 韦 德 曼 是 深度 学 习 领 域 的 资深 专家 ， 他 善于 通过 简单 明了 的 方式 介绍 复杂 的 概 
念 。 因 此 ， 这 本 书 可 以 称 作 深 度 学 习 领 域 的 综合 性 教程 。 无 论 从 深 度 还 是 广度 上 ， 全 书 都 
对 深度 学 习 的 概念 和 实践 方法 做 了 全 面 的 介绍 ， 这 体现 了 作者 对 这 些 主题 的 独到 见解 ， 读 
完 让 人 受益 菲 浅 。 这 本 书 对 知识 体系 的 构建 以 及 细 市 的 把 控 也 让 人 印象 深刻 ， 从 基本 概念 
出 发 ， 通 过 丰富 而 简洁 的 代码 示例 ， 给 出 这 些 概念 的 实现 方案 。 行 文 上 层 层 递 进 ， 娓 娓 道 
来 ， 帮 忙 大 家 从 入门 走向 精通 。 更 为 重要 的 是 ， 本 书 不 仅 介绍 了 深度 学 习 的 各 项 功能 特 
性 ， 还 提供 了 一 系列 面向 实战 的 最 佳 实践 ， 可 以 作为 广大 技术 人 员 的 开发 指南 。 












































由 于 时 间 仓 促 ， 译 者 的 水 平和 经 验 有 限 ， 书 中 难免 有 欠 妥 和 错误 之 处 ， 司 请 读者 批评 指正 。 











郑 天 民 
2020 年 12 月 于 杭州 钱 江 世 纪 城 
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在 学 习 神 经 网 络 和 深度 学 习 时 ， 你 可 能 会 搜索 到 大 量 的 资源 ， 从 博客 文章 到 MOOC (如 
Coursera 和 Udacity 提供 的 那些 在 线 课 程 ) ， 甚 至 还 有 一 些 书 ……: 但 是 ， 这 些 资源 的 质量 参 
差 不 齐 ， 我 在 前 几 年 开始 探索 这 个 主题 时 就 已 经 对 此 有 所 了 解 。 既 然 你 开始 陪读 本 书 ， 就 
说 明 你 之 前 了 解 的 所 有 关于 神经 网 络 的 解释 在 一 定 程度 上 有 所 欠缺 。 刚 开始 学 习 这 一 主题 
时 ， 我 有 过 同样 的 经 历 。 就 像 寞 人 摸 象 似 的 ， 各 种 各 样 的 解释 描述 了 不 同 的 方面 ， 但 都 没 
有 提供 一 个 整体 的 描述 。 基 于 这 种 情况 ， 我 便 开始 编写 本 书 。 



































现 有 的 神经 网 络 资源 主要 分 为 两 类 。 一 类 资源 侧重 于 概念 领域 和 数学 领域 ,包含 两 个 方 
面 : 一 方面 是 用 两 端 有 第 头 的 线 连 接 圆 来 形成 示意 图 ， 这 种 方式 在 解释 神经 网 络 时 非常 常 
见 ， 另 一 方面 是 用 大 量 数学 公式 来 解释 运行 机 制 ， 这 样 做 有 助 于 “理解 理论 ”。 这 类 资源 
的 一 个 典型 例子 是 Ian Goodfellow 等 人 所 著 的 《深度 学 习 》， 这 本 书 非 常 优秀 。 





























另 一 类 资源 则 包含 密集 的 代码 块 ， 在 运行 这 些 代码 块 时 ， 它 们 似乎 会 显示 随时 间 减 少 的 损 
失 值 。 也 就 是 说 ， 神 经 网 络 会 “学 习 ”。 例 如 ，PyTorch 文档 中 的 以 下 示例 确实 定义 并 训练 
了 一 个 基于 随机 生成 数据 的 简单 神经 网 络 : 


# N 是 批 次 大 小 ，D_in 是 输入 维度 ，H 是 隐藏 维度 ，D_out 是 输出 维度 
N, D_in, H, D_out = 64, 1000, 100, 10 





# 创建 随机 输入 数据 和 输出 数据 
x = torch.randn(N, D_in, device=device, dtype=dtype) 
y = torch.randn(N, D_out, device=device, dtype=dtype) 





# 随机 初始 化 权重 
wl1 = torch.randn(D_in, H, device=device, dtype=dtype) 
w2 = torch.randn(H, D_out, device=device, dtype=dtype) 
learning_rate = 1e-6 
for t in range(500): 








注 1: massive open online course， 大 规模 开放 式 在 线 课程 。 








Xiii 


# 前 向 传递 : 计算 预测 值 y 
h = x.mm(w1) 

h_rely = h.clamp(min=0) 
y_pred = h_reLu.mm(w2) 


# 计算 并 输出 损失 值 
Loss = (y_pred - y).pow(2).sum().item() 
print(t, loss) 


# 反问 计算 w1 和 w2 相 对 于 损失 值 的 梯度 
grad y_pred = 2.0 * (y_pred - y) 
grad_w2 = h_reluy.t().mm(grad_y_pred) 
grad_h_reLu = grad_y_pred.mm(w2.t()) 
grad_h = grad_h_relu.clone() 
grad_h[h < 0] = 0 

grad_w1 = x.t().mm(grad_h) 








# 使 用 梯度 下 降 更 新 权重 
w1 -= Learning_rate * grad_w1 
w2 -= Learning_rate * grad_w2 








当然 ， 像 这 样 的 解释 并 不 能 让 我 们 深 入 了 解 “工作 机 制 *"， 如 基本 的 数学 原理 、 其 中 的 独 
立 神经 网 络 组 件 以 及 它们 协同 工作 的 方式 ， 等 等 。 


怎么 样 才能 更 好 地 解释 神经 网 络 呢 ? 对 于 这 个 问题 ， 可 以 参考 关于 其 他 计算 机 科学 概念 的 
解释 。 如 果 你 想 学 习 排 序 算法 ， 那 么 会 发 现 一 些 教科 书 中 包含 以 下 内 容 。 


。 用 简单 的 语言 解释 算法 。 
。 关于 算法 工作 原理 的 可 视 化 解释 ， 类 似 于 编码 面试 时 在 白板 上 画 的 那 种 形式 。 
。 关于 “算法 运行 机 制 ”的 一 些 数学 方面 的 解释 >。 

。 实现 算法 的 伪 代码 。 


尽管 我 认为 理应 用 这 种 方式 对 神经 网 络 展 开 介 绍 ， 但 很 少 有 人 (其 至 从 未 有 过 ) 会 全 面 地 
解释 神经 网 络 的 这 些 内 容 ， 本 书 旨 在 填补 这 一 空白 。 


理解 神经 网 络 需要 多 种 思维 模型 


虽然 不 是 专业 的 研究 人 员 ， 也 没有 取得 博士 学 位 ， 但 是 我 曾经 熟练 地 教授 数据 科学 : 我 曾 
与 Metis 公司 合作 辅导 过 几 个 数据 科学 训练 营 ， 并 在 接 下 来 的 一 年 中 走访 世界 各 地 ， 为 许 
多 不 同行 业 的 公司 举办 了 为 期 1 到 5 天 的 研讨 会 ， 向 那里 的 员工 解释 机 器 学 习 和 软件 工程 
的 基本 概念 。 我 一 直 热 爱 教学 ， 致 力 于 解决 如 何 最 好 地 解释 技术 概念 这 一 问题 。 近 年 来 ， 
我 重点 关注 机 器 学 习 和 统计 学 中 的 概念 。 对 于 神经 网 络 ， 我 发 现 最 具 挑 战 性 的 部 分 是 ， 为 









































注 2: 这 个 示例 旨 在 为 那些 已 经 了 解 神经 网 络 的 人 提供 PyTorch 库 的 说 明 ， 而 不 是 作为 指导 性 教程 。 尽 管 如 
此 ， 许 多 教程 仍 遵循 这 种 风格 ， 即 仅 展 示 代 码 和 一 些 简 短 的 注释 。 
注 3: 以 排序 算法 为 例 ， 这 方面 的 解释 是 指 为 什么 该 算法 能 生成 正确 排序 的 列表 。 

















“什么 是 神经 网 络 ” 传 达 正 确 的 “思维 模型 ”。 这 主要 是 因为 ， 了 解 神经 网 络 需 要 的 不 是 一 
个 而 是 多 个 思维 模型 ， 每 一 个 都 说 明了 神经 网 络 工作 方式 的 不 同方 面 (而 且 每 个 方面 都 必 
不 可 少 )。 为 了 说 明 这 一 点 ， 来 看 一 个 例子 。 以 下 4 个 句子 都 是 “什么 是 神经 网 络 ”这 一 
问题 的 正确 答案 。 


神经 网 络 是 一 种 数学 函数 ， 它 接受 输入 并 产生 输出 。 

神经 网 络 是 多 维 数组 流 经 的 计算 图 。 

神经 网 络 由 层 组 成 ， 每 层 都 可 以 被 认为 具有 许多 “神经 元 ”。 

神经 网 络 是 一 种 通用 函数 逼近 器 ， 从 理论 上 讲 可 以 代表 任何 监督 学 习 问 题 的 解决 方案 。 

















事实 上 ， 很 多 人 可 能 已 经 听 过 其 中 一 个 或 多 个 解释 ， 并 且 可 能 对 神经 网 络 的 工作 原理 和 含 
义 有 一 定 的 了 解 。 但 是 ， 要 完全 理解 它们 ， 必 须 了 解 它 们 的 所 有 内 容 并 展示 它们 之 间 的 关 
系 。 例 如 ， 神 经 网 络 如 何 表示 为 与 “ 层 ” 的 概念 相关 联 的 计算 图 ? 此 外 ， 为 了 使 所 有 这 些 
解释 更 加 精确 ， 我 们 将 通过 Python 从 零 开 始 实现 所 有 这 些 概念 ， 并 将 它们 融合 在 一 起 ， 形 
成 可 以 在 笔记 本 计算 机 上 训练 的 有 效 神经 网 络 。 尽 管 我 们 会 在 实现 细节 上 花费 大 量 时 间 ， 
但 是 通过 Python 实现 神经 网 络 模型 的 目的 是 巩固 并 精确 地 理解 概念 ， 而 不 是 尽 可 能 简洁 
或 高 效 地 编写 一 个 神经 网 络 库 。 


本 书 旨 在 帮助 你 充分 地 理解 所 有 这 些 思维 模型 以 及 它们 对 神经 网 络 实现 方式 的 影响 ， 这 样 
学 习 相关 概念 或 在 这 个 领域 进一步 做 项 目 会 变 得 容易 得 多 。 


.=i— 
章 方 概要 
前 3 章 是 最 重要 的 部 分 ， 每 一 章 都 可 以 用 一 本 书 来 讨论 ， 当 然 ， 这 里 精简 了 内 容 。 


第 1 章 说 明 如 何 将 数学 函数 表示 为 一 系列 连接 在 一 起 构成 计算 图 的 运算 ， 并 演示 如 何 利 用 
这 种 表示 方法 和 微 积分 的 链 式 法 则 ， 来 计算 函数 的 输出 相对 于 其 输入 的 导数 。 这 一 章 将 介 
绍 一 个 非常 重要 的 运算 ， 即 矩阵 乘法 ， 并 说 明 如 何 让 它 既 能 够 适应 用 这 种 方式 表示 的 数学 
国 数 ， 又 可 以 计算 最 终 进行 深度 学 习 所 需 的 导数 。 


第 2 章 直接 使 用 第 1 章 中 创建 的 构成 要 素来 构建 和 训练 模型 ， 从 而 解决 实际 问题 。 有 具体 地 
说 ， 就 是 使 用 它们 来 构建 线性 回归 模型 和 神经 网 络 模型 ， 并 基于 真实 的 数据 集 预 测 房价 。 
这 一 章 提 出 ， 神 经 网 络 比 线性 回归 具有 更 好 的 性 能 ， 并 试图 直观 地 解释 原因 。 在 这 一 章 中 
构建 模型 所 采用 的 “基本 原理 ”方法 ， 可 以 帮助 你 很 好 地 理解 神经 网 络 的 工作 原理 ， 同 时 
也 展示 了 逐步 的 、 纯 粹 基于 基本 原理 的 方法 在 定义 深度 学 习 模 型 方面 的 局 限 性 。 这 便 引 出 
了 第 3 章 的 内 容 。 


第 3 章 从 前 两 章 基于 基本 原理 的 方法 中 提取 构成 要 素 ， 并 使 用 它们 来 构建 构成 所 有 深度 学 习 
模型 的 “更 高 层次 ”的 组 件 ， 即 Layer 类 、0ptimizer 类 等 。 这 一 章 的 结尾 在 第 2 章 的 同一 
个 数据 集 上 训练 一 个 从 零 定 义 的 深度 学 习 模型 ， 该 模型 比 简单 的 神经 网 络 具 有 更 好 的 性 能 。 
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事实 证 明 ， 当 基于 本 书 中 使 用 的 标准 训练 技术 进行 训练 时 ， 很 少 有 理论 保证 具有 给 定 架 构 
的 神经 网 络 能 够 在 给 定 的 数据 集 上 找到 良好 的 解决 方案 。 第 4 章 介绍 最 重要 的 训练 技术 ， 
这 些 技术 通常 会 使 神经 网 络 更 有 可 能 找到 好 的 解决 方案 。 另 外 ， 书 中 会 尽 可 能 从 数学 角度 
说 明 它 们 发 挥 作 用 的 原理 。 

















第 5 章 介绍 卷 积 神经 网 络 (convolutional neural network，CNN) 背后 的 基本 思想 ， 它 是 一 
种 专门 用 于 理解 图 像 的 神经 网 络 架构 。 关 于 CNN 的 解释 有 很 多 ， 本 书 重点 介绍 CNN 的 核 
心 要 点 及 其 与 常规 神经 网 络 的 区 别 。 比 如 说 ，CNN 如 何 将 神经 元 的 每 一 层 都 组 织 成 “ 特 
征 图 ”， 以 及 如 何 通 过 卷 积 过 滤器 将 其 中 的 两 层 (每 层 都 由 多 个 特征 图 组 成 ) 连接 在 一 起 。 
此 外 ， 就 像 从 零 开始 对 神经 网 络 中 的 常规 层 进行 编码 一 样 ， 这 一 章 也 将 从 零 开 始 对 卷 积 层 
进行 编码 ， 加 深 对 其 工作 原理 的 理解 。 









































第 1 ~ 5 章 构 建 了 一 个 微型 神经 网 络 库 ， 该 库 将 神经 网 络 定 义 为 一 系列 Layer 类 ，Layer 
类 本 身 由 一 系列 0peration 类 组 成 ， 这 些 0peration 类 向 前 发 送 输入 ， 向 后 发 送 梯度 。 实 
际 上 ， 这 不 是 大 多 数 神经 网 络 的 实现 方式 。 相 反 ， 它 们 使 用 一 种 叫 作 自动 微分 (automatic 
differentiation) 的 技术 。 第 6 章 对 自动 微分 进行 简单 说 明 ， 并 用 它 来 引出 这 一 章 的 核心 主 
题 一 一 循环 神经 网 络 (recurrent neural network，RNN)。 这 种 神经 网 络 架 构 通常 用 于 理解 
数据 点 按 顺 序 出 现 的 数据 ， 例 如 时 间 序 列 数据 或 自然 语言 数据 。 这 一 章 还 会 解释 vanilla 
RNN 及 其 两 种 变 体 GRU 和 LSTM 的 工作 原理 ， 当 然 ， 也 会 从 零 开 始 实现 这 3 种 神经 网 络 。 
在 整个 过 程 中 ， 你 将 了 解 RNN 及 与 其 变 体 之 间 的 共同 点 和 不 同 点 。 






































第 7 章 展示 如 何 使 用 高 性 能 的 开源 神经 网 络 库 PyTorch， 来 实现 第 1 ~ 6 章 中 从 零 开 始 执 
行 的 操作 。 学 习 这 样 的 框架 对 于 继续 学 习 神 经 网 络 至 关 重 要 ， 但 是 如 果 不 先 深 入 了 解 神经 
网 络 的 工作 方式 和 原理 ， 就 接触 并 学 习 一 个 框架 ， 那么 从 长 远 来 看 会 严重 限制 今后 的 学 
习 。 本 书 各 章 的 目的 是 让 你 有 能 力 编写 高 性 能 的 神经 网 络 (通过 教 你 使 用 PyTorch)， 同 时 
还 能 让 你 长 期 学 习 并 取得 成 功 (在 学 习 PyTorch 之 前 先 了 解 基本 原理 ) 。 最 后 ， 这 一 章 将 简 
要 说 明神 经 网 络 如 何 用 于 无 监督 学 习 。 


本 书 的 目标 就 是 成 为 我 在 学 习 神 经 网 络 和 深度 学 习 时 所 渴望 拥有 的 那样 一 本 书 ， 希 望 你 从 
中 有 所 收获 。 加 油 ! 

排版 约定 

本 书 采用 了 以 下 排版 约定 。 


口 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 




















口 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 类 型 、 环 境 变量 、 语 句 和 关键 字 等 。 





| -> 


xvi 月 噩 


口 等 宽 粗 体 (constant width bold) 
表示 应 该 由 用 户 直接 输入 的 命令 或 其 他 文本 。 





口 等 宽 和 斜体 (constant width italic) 
表示 应 该 由 用 户 输 入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 

















勾 股 定理 表示 为 a + b=。 





该 图 标 表示 一 般 的 注 记 。 








使 用 示例 代码 


补充 材料 〈 示 例 代 码 、 练 习 等 ) 可 以 从 https://github.com/SethHWeidman/DLFS code 下 载 “。 





本 书 旨 在 帮助 你 完成 工作 。 一 般 来 说 ， 你 可 以 在 自己 的 程序 或 文档 中 使 用 本 书 提供 的 示例 
代码 。 除 非 需要 复制 大 量 代码 ， 否 则 无 须 联 系 我 们 获得 许可 。 比 如 ， 使 用 本 书 中 的 几 个 代 
码 片段 编写 程序 无 须 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 获得 许可 ， 引 
用 本 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 本 书 中 的 大 量 示例 代码 放 到 你 的 产品 文档 
中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。3 引 用 说 明 通 常 包括 书 
名 、 作 者 、 出 版 社 和 ISBN， 比 如 “Deep Learning from Scratch by Seth Weidman (O’Reilly). 
Copyright 2019 Seth Weidman, 978-1-492-04141-2”。 























如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 





O'Reilly 在 线 学 习 平台 〈O'Reilly Online Learning) 


OREILLY” 近 40 年 来 ，O’Reilly Media 致力 于 提供 技术 和 商业 培训 、 知 识 和 
卓越 见解 ， 来 帮助 众多 公司 取得 成 功 。 


我 们 拥有 独一无二 的 专家 和 革新 者 组 成 的 庞大 网 络 ， 他 们 通过 图 书 、 文 章 、 会 议和 我 们 的 
在 线 学 习 平 台 分 享 他 们 的 知识 和 经 验 。O’Reilly 的 在 线 学 习 平台 允许 你 按 需 访问 现场 培训 
课程 、 深 入 的 学 习 路 径 、 交 互 式 编程 环境 ， 以 及 OReilly 和 200 多 家 其 他 出 版 商 提 供 的 大 
量 文 本 和 视频 资产。 有 关 的 更 多 信息 ， 请 访问 https://oreilly.com。 












































注 4: 也 可 以 从 图 灵 社 区 下 载 : ituring.cn/book/2759。 一 一 编者 注 

















联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美 国 ; 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 

北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 

奥 菜 利 技术 咨询 (北京 ) 有 限 公 司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代码 以 及 其 他 信息 *。 本 书 的 网 页 是 https://oreil.ly/dl-from-scratch。 









































对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 bookquestions@oreilly.com。 











要 更 多 地 了 解 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 ， 请 访问 以 下 网 站 : http://www. 


oreilly.com 。 

















我 们 在 Facebook 的 地 址 如 下 : http://facebook.conmy/oreilly。 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia。 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia。 
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注 5; 也 可 以 通过 图 灵 社 区 下 载 示 例 代码 或 提交 中 文 版 勘误 : ituring.cn/book/2759。 一 一 编者 注 
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扫描 如 下 二 维 码 ， 即 可 购买 本 
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中 文 版 











电子 版 。 











不 要 记 住 这 些 公 式 。 如 果 能 理解 这 些 概念 ， 那 么 你 就 可 以 自己 发 明 符号 。 


一 一 John Cochrane, nvestments Notes 


本 章 旨 在 解释 一 些 共 本 的 思维 模型 ,这 些 模型 对 于 理解 神经 网 络 的 工作 原理 至 关 重 要 。 具 


体 地 说 ， 本 章 将 介绍 组 套数 学 函数 (nested mathematical functio 


n) 及 其 导数 (derivative ) 。 
人 


我 们 将 从 最 简单 的 构成 要 素 开始 逐步 研究 ， 证 明 可 以 构建 由 函数 链 组 成 的 复杂 函数 。 即 使 


其 中 一 个 函数 是 接受 多 个 输入 的 矩阵 乘法 ， 也 可 以 计算 函数 输 








相对 于 其 输入 的 导数 。 另 


外 ， 理 解 该 过 程 对 于 理解 神经 网 络 至 关 重要 ， 从 第 2 章 开始 将 涉及 神经 网 络 的 内 容 。 

















以 一 个 或 多 个 方程 式 的 形式 所 表示 的 数学 。 





围绕 神经 网 络 的 基本 构成 要 素 进行 研究 时 ， 我 们 将 从 3 个 维度 系统 地 描述 所 引入 的 每 个 


解释 过 程 的 示意 图 ， 类 似 于 在 参加 编码 面试 时 画 在 白板 上 的 图 表 。 


























包含 尽 可 能 少 的 特殊 语法 的 代码 (Python 是 一 个 理想 选择 )。 























如 前 言 所 述 ， 理 解 神经 网 络 的 一 大 挑战 是 它 需 要 多 个 思维 模型 。 


你 在 本 章 中 就 可 以 体会 到 





这 一 点 : 对 将 讨论 的 概念 来 说 ， 以 上 3 个 维度 分 别 代表 不 同 的 基本 特征 ， 只 有 把 它们 结合 





在 一 起 ， 才 能 对 一 些 概念 形成 完整 的 认识 ， 比 如 髓 套数 学 函数 如 何以 及 为 何 起 作用 。 注 


意 ， 要 完整 地 解释 神经 网 络 的 构成 要 素 ， 以 上 3 个 维度 缺 一 不 可 。 


明白 了 这 一 点 ， 接 下 来 就 可 以 开始 本 书 的 学 习 3 了。 我 将 从 一 些 


E 常 简单 的 构成 要 素 开 始 讲 





解 ， 介 绍 如 何 基于 这 3 个 维度 来 理解 不 同 的 概念 。 第 一 个 构成 要 素 是 一 个 简单 但 又 至 关 重 


要 的 概念 : 函数 。 


1.1 函数 

什么 是 函数 ?如何 描 述 函数 ?与 神经 网 络 一 样 ， 函 数 也 可 以 用 多 种 方法 描述 ， 但 没有 一 种 
方法 能 完整 地 描绘 它 。 与 其 尝试 给 出 简单 的 一 句 话 描述 ， 不 如 像 冲 人 措 象 那样 ， 依 次 根据 
每 个 维度 来 了 解 函数 。 

数学 

下 面 是 两 个 用 数学 符号 描述 的 函数 示例 。 

















f(x)=x 

(x)=max(x,0) 
以 上 有 两 个 函数 ,分别 为 和,， 当 输入 数字 x 时， 第 一 个 函数 将 其 转换 为 x* ， 第 二 个 
函数 则 将 其 转换 为 max(x,0) 。 


示意 图 

下 面 是 一 种 描绘 函数 的 方法 。 

1. 绘制 一 个 x-y 平 面 (其 中 x 表示 横 轴 ，y 表示 纵 轴 )。 

. 绘制 一 些 点 ， 其 中 ， 点 的 x 坐标 是 函数 在 某 个 范围 内 的 输入 (通常 是 等 距 的 )，y 坐标 
则 古 该 范围 内 函数 的 输出 。 

3. 连接 所 绘制 的 点 。 

这 种 利用 坐标 的 方法 是 法 国 哲 学 家 勒 内 笛 卡 儿 发 明 的 ， 它 在 许多 数学 领域 非常 有 用 ， 特 

别 是 微 积 分 领域 。 图 1-1 展示 了 以 上 两 个 函数 的 示意 图 。 
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1-1: 两 个 连续 、 基 本 可 微 的 函数 
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然而 ， 还 有 另 一 种 描绘 函数 的 方法 ， 这 种 方法 在 学 习 微 积分 时 并 没有 那么 有 用 ， 但 是 对 于 
思考 深度 学 习 模型 非常 有 帮助 。 可 以 把 函数 看 作 接收 数字 (输入 ) 并 生成 数字 (输出 ) 的 
盒子 ， 就 像 小 型 工厂 一 样 ， 它 们 对 输入 的 处 理 有 自己 的 内 部 规则 。 图 1-2 通过 一 般 规则 和 
具体 的 输入 描绘 了 以 上 两 个 国 数 。 

















图 1-2: 另 一 种 描绘 函数 的 方法 


代码 
最 后 ， 可 以 使 用 代码 描述 这 两 个 函数 。 在 开始 之 前 ， 先 介绍 一 下 NumPy 这 个 Python 库 ， 
下 面 会 基于 该 库 编 写 函数 。 


1. NumPy 库 

NumPy 是 一 个 广泛 使 用 的 Python 库 ， 用 于 快速 数值 计算 ， 其 内 部 大 部 分 使 用 C 语言 编写 。 
简单 地 说 ， 在 神经 网 络 中 处 理 的 数据 将 始终 保存 在 一 个 多 维 数组 中 ， 主 要 是 一 维 数组 、 二 
维 数组 、 三 维 数组 或 四 维 数组 ， 尤 其 以 二 维 数组 或 三 维 数组 居多 。NumPy 库 中 的 ndarray 
类 能 够 让 我 们 以 直观 且 快 速 的 方式 计算 这 些 数组 。 举 一 个 最 简单 的 例子 ， 如 果 将 数据 存储 
在 Python 列表 或 列表 的 秽 套 列表 中 ， 则 无 法 使 用 常规 语法 实现 数据 对 位 相 加 或 相 乘 ， 但 
ndarray 类 可 以 实现 : 











print("Python list operations:") 
a = [1,2,3] 
b = [4,5,6] 
print("a+b:"，a+b) 
try : 

print(a*b) 
except TypeError: 

print("a*b has no meaning for Python lists") 
print() 
print("numpy array operations:") 
a = np.array([1,2,3]) 
b = np.array([4,5,6]) 
print("a+tb:", a+b) 
print("a*b:", a*b) 
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Python list operations: 
a+b: [1, 2, 3, 4, 5, 6] 
a*b has no meaning for Python lists 


numpy array operations: 

a+b: [5 7 9] 

axb: [ 4 10 18] 
ndarray 还 具备 n 维 数组 所 具有 的 多 个 特性 : 每 个 ndarray 都 有 具有 nn 个 轴 (从 0 开始 索引 )， 
第 一 个 轴 为 轴 0， 第 二 个 轴 为 轴 1， 以 此 类 推 。 另 外 ， 由 于 二 维 ndarray 较为 常见 ， 因 此 可 
以 将 轴 0 视 为 行 ， 将 轴 1 视 为 列 ， 如 图 1-3 所 示 。 




















加 1 


加 0 











图 1-3: 一 个 二 维 ndarray， 其 中 轴 0 为 行 ， 轴 1 为 列 





NumPy 库 的 ndarray 类 还 支持 以 直观 的 方式 对 这 些 轴 应 用 函数 。 例 如 ， 沿 轴 0 (二 维 数组 
的 行 ) 求 和 本 质 上 就 是 沿 该 轴 “ 折 县 数组 ”， 返 回 的 数组 比 原始 数组 少 一 个 维度 。 对 二 维 
数组 来 说 ， 这 相当 于 对 每 一 列 进行 求 和 : 





print('a:') 

print(a) 

print('a.sum(axis=0):', a.sum(axis=0)) 
print('a.sum(axis=1):', a.sum(axis=1)) 


a: 

EL 竺 之 ] 

[3 4]] 

a.sum(axis=0): [4 6] 

a.sum(axis=1): [3 7] 
ndarray 类 支持 将 一 维 数组 添加 到 最 后 一 个 轴 上 。 对 一 个 R 行 C 列 的 二 维 数组 a 而 言 ,这 
意味 着 可 以 添加 长 度 为 C 的 一 维 数 组 b。Numpy 将 以 直观 的 方式 进行 加 法 运算 ， 并 将 元 素 
添加 到 a 的 每 一 行 中 。 

a = np.array([[1,2,3]， 

[4,5,6]]) 


b = np.array([10,20,30]) 
print("a+b:\n", a+b) 
a+b: 


[[11 22 33] 
[14 25 36]] 


注 1: 这 样 一 来 ， 后 续 便 可 以 轻松 地 向 矩阵 乘法 添加 偏差 。 
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2. 类 型 检查 函数 
如 前 所 述 ， 本 书 代码 的 主要 目标 是 确保 概念 描述 的 准确 性 和 清晰 性 。 随 着 本 书 内 容 的 展 
开 ， 这 将 变 得 更 具 挑 战 性 ， 后 文 涉及 编写 带 有 许多 参数 的 函数 ， 这 些 参 数 是 复杂 类 的 一 部 
。 为 了 解决 这 个 问题 ， 本 书 将 在 整个 过 程 中 使 用 带 有 类 型 签名 的 函数 。 例 如 ， 在 第 3 章 
的 我 们 将 使 用 如 下 方式 初始 化 神经 网 络 : 
def _ init__(self, 
Layers: List[Layer], 


loss: Loss, 
learning_rate: float = 0.01) -> None: 

















仅 通 过 类 型 签名 ， 就 能 了 解 该 类 的 用 途 。 与 此 相对 ， 考 虑 以 下 可 用 于 定义 运算 的 类 型 签名 : 


def operation(x1, x2): 





类 型 签名 本 身 并 没有 给 出 任何 提示 。 只 有 打印 出 每 个 对 象 的 类 型 ， 查 看 对 每 个 对 象 执 
各 或 者 根据 名 称 x1 和 x2 进行 猜测 ， 才 能 够 理解 该 函数 的 功能 。 这 里 可 以 改 为 定 
义 具有 类 型 签名 的 函数 ， 如 下 所 示 : 














def operation(x1: ndarray, x2: ndarray) -> ndarray: 


很 明显 ， 这 是 接受 两 个 ndarray 的 函数 ， 可 以 用 某 种 方式 将 它们 组 合 在 一 起 ， 并 输出 该 组 
合 的 结果 。 由 于 它们 读 起 来 更 为 清楚 ， 因 此 本 书 将 使 用 经 过 类 型 检查 的 函数 。 





3. NumpPy 库 中 的 基础 函数 
了 解 前 面 的 内 容 后 ， 现 在 来 编写 之 前 通过 NumPy 库 定义 的 函数 : 





def square(x: ndarray) -> ndarray: 


将 输入 ndarray 中 的 每 个 元 素 进 行 平方 运算 。 
return np.power(x, 2) 


def leaky_relu(x: ndarray) -> ndarray: 


将 fleaky ReLU 国 数 应 用 于 ndarray 中 的 每 个 元 素 。 


return np.maximum(0.2 * x, x) 


NumPy 库 有 一 个 奇怪 的 地 方 ， 那 就 是 可 以 通过 使 用 np. function_name(ndarray) 

或 ndarray.function_nanme 将 许多 函数 应 用 于 ndarray。 例 如 ， 前 面 的 ReLU 

函数 可 以 编写 成 x.clip(min=0)。 本 书 将 尽量 保持 一 致 ， 在 整个 过 程 中 遵循 

np. Function_name(ndarray) 约定 ， 尤 其 会 避免 使 用 ndarray.T 之 类 的 技巧 来 转 
置 二 维 ndarray， 而 会 使 用 np.transpose(ndarray，(1，0))。 





























如 果 能 通过 数学 、 示 意图 和 代码 这 3 个 维度 来 表达 相同 的 基本 概念 ， 就 说 明 你 已 经 初步 拥 
有 了 真正 理解 深度 学 习 所 需 的 灵活 思维 。 
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1.2 导数 


像 国 数 一 样 ， 导 数 也 是 深度 学 习 的 一 个 非常 重要 的 概念 ， 大 多 数 人 可 能 很 熟悉 。 同 样 ， 导 
数 也 可 以 用 多 种 方式 进行 描述 。 总 体 来 说 ， 函 数 在 某 一 点 上 的 导数 ， 可 以 简单 地 看 作 函 数 
输出 相对 于 该 点 输入 的 “变化 率 ”。 接 下 来 基于 前 面 介绍 的 3 个 维度 来 了 解 导 数 ， 从 而 更 
好 地 理解 导数 的 原理 。 


数学 


首先 来 从 数学 角度 精确 地 定义 导数 : 可 以 使 用 一 个 数字 来 描述 极限 ， 即 当 改 变 某 个 特定 的 
输入 值 a 时 ， 函 数 了 输出 的 变化 : 


中 








m+ f(a-4) 
时 2xA4 





= 


通过 为 4 设置 非常 小 的 值 ( 例 如 0.001)， 可 以 在 数值 上 近似 此 极限 。 因 此 ， 可 以 将 导数 计 
算 为 : 





Yf (1) f(a+0.00D) -f(a -0.00) 
du 0.002 


虽然 近似 准确 ， 但 这 只 是 完整 导数 思维 模型 的 一 部 分 ， 下 面 来 从 示意 图 的 维度 认识 导数 。 


























示意 图 

采用 一 种 熟悉 的 方式 : 在 含有 函数 图像 的 笛 卡 儿 坐标 系 上 ， 简 单 地 画 出 该 函数 的 一 条 切 
线 ， 则 函数 在 点 a 处 的 导数 就 是 该 线 在 点 a 处 的 和 斜率。 正如 本 节 中 的 数学 描述 一 样 ， 这 
里 也 可 以 通过 两 种 方式 实际 计算 这 条 线 的 斜率 。 第 一 种 方式 是 使 用 微 积 分 来 实际 计算 极 
限 ， 第 二 种 方式 是 在 a 一 0.001 处 和 a+0.001 处 取 连 线 f 的 斜率 。 后 者 如 图 1-4 所 示 ， 如 果 
学 过 微 积分 ， 应 该 会 很 熟悉 。 


















































_ f(a+0.00D)— f(a—0.00D) 
A 0.002 











1-4: 导数 即 为 斜率 
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正如 1.1 节 所 述 ， 可 以 把 函数 想象 成 小 型 工厂 。 现 在 想象 那些 工厂 的 输入 通过 一 根 线 连 接 
到 输出 。 求 解 导数 相当 于 回答 这 样 一 个 问题 ， 如 果 将 函数 的 输入 a 拉 高 一 点 ， 或 者 如 果 函 
数 在 a 处 可 能 不 对 称 ， 因 此 把 a 拉 低 一 点 ， 那 么 根据 工厂 的 内 部 运作 机 制 ， 输 出 量 将 以 这 
个 小 数值 的 多 少 们 进行 变化 呢 ?” 如 图 1-5 所 示 。 


















































1-5: 导数 可 视 化 的 另 一 种 方法 
对 理解 深度 学 习 而 言 ， 第 二 种 表示 形式 比 第 一 种 更 为 重要 。 


代码 


可 以 通过 编码 来 求解 前 面 看 到 的 导数 的 近似 值 : 























from typing import Callable 


def deriv(func: Callable[[ndarray], ndarray], 
input_: ndarray, 
delta: float = 0.001) -> ndarray: 


和 


计算 函数 func 在 input_ 数 组 中 每 个 元 素 处 的 导数 。 





return (func(input_ + delta) - func(input_  - delta)) / (2 * delta) 
当 说 PP 是 E (随机 选 的 字母 ) 的 函数 时 ， 其 实 是 指 存在 茶 个 函数 1， 使 得 


f(E)=P。 或 者 说 ， 有 一 个 函数 f， 它 接受 对 象 并 产生 对 象 P。 也 可 以 说 ， 
了 是 函数 应 用 于 EE 时 产生 的 任意 函数 值 : 


- 国 - 


可 以 将 其 编码 为 下 面 这 种 形式 。 














def f(input_: ndarray) -> ndarray: 
# 一 些 转换 


return output 


p = f(E) 
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个 概念 ， 该 概念 将 成 为 理解 神经 网 络 的 基础 : 国 数 可 以 被 “ 艇 套 ”， 从 而 形 
成 “复合 ”函数 。 岗 套 ”到 底 是 什么 意思 呢 ? 假设 有 两 个 国 数 ， 按 照 数 学 惯例 ， 它 们 分 
昌 及 了 和 扩 ， 其中 一 个 函 函数 的 输出 将 成 为 男 一 个 国 数 的 输入 ， 这 样 就 可 以 “把 它们 串 在 








腻 套 函数 在 数学 上 表示 为 : 
ff(X)=y 


这 不 太 直 观 ， 因 为 有 个 奇怪 的 地 方 : 嵌 套 函数 是 “从 外 而 内 ” 读 取 的 ， 而 而 运算 实际 上 是 
“从 内 而 外 ”执行 的 。 例 如 ， 尽 管 及 (X1(?))=y 读 作 “ 接受 三 接受 x 对象 而 产生 对 象 y”， 





但 其 真正 含义 是 “首先 将 有 应 用 于 x， 然 后 将 厂 应 用 于 该 结果 ， 最 终 得 到 对 象 y”。 
示意 图 





要 表示 岁 套 函数 ， 最 直观 的 方法 是 使 用 小 型 工厂 表示 法 ， 又 称 盒子 表示 法 。 


如 图 1-6 所 示 ， 输 入 进入 第 一 个 函数 ， 转 换 之 后 进行 输出 。 然 后 ， 这 个 输出 进入 第 二 个 函 
数 并 再 次 转换 ， 得 到 最 终 输 出 。 


























图 1-6: 直观 地 表示 谍 套 函数 


代码 
前 面 已 经 介绍 了 两 个 维度 ， 接 下 来 从 代码 维度 来 认识 芷 套 函 数 。 首 先 ， 为 附 套 函数 定义 一 


个 数据 类 型 : 








到 








from typing import List 


# 函数 接受 一 个 ndarray 作 为 参数 并 生成 一 个 ndarray 
Array_Function = Callable[[ndarray], ndarray] 





# 链 是 一 个 函数 列表 
Chain = List[Array_Function] 





然后 ， 定 义 数据 如 何 经 过 特定 长 度 的 链 ， 以 长 度 等 于 2 为 例 ， 代 码 如 下 所 示 。 


def chain_Length_2(chain: Chain, 
a: ndarray) -> ndarray: 





在 一 行 代码 中 计算 “ 链 ” 中 的 两 个 函数 。 


assert len(chain) == 2, \ 
"Length of input 'chain' should be 2" 


fl = chain[0] 
f2 = chain[1] 


return f2(f1(x)) 


另 一 种 示意 图 
使 用 盒子 表示 法 描述 山 套 函数 表明 ， 该 复合 函数 实际 上 就 只 是 一 个 函数 。 因 此 ， 可 以 将 该 
函数 简单 地 表示 为 ff ， 如 图 1-7 所 示 。 








- 国 - 
图 1-7: 庶 套 函数 的 另 一 种 表示 法 


此 外 ， 在 微 积 分 中 有 一 个 定理 ， 那 就 是 由 “基本 可 微 ”的 函数 组 成 的 复合 函数 本 身 就 是 基 
本 可 微 的 ! 因此 ， 可 以 将 fi 视 为 男 一 个 可 计算 导数 的 函数 。 计 算 复 合 函 数 的 导数 对 于 训 
练 深 度 学 习 模 型 至 关 重要 。 





























但 是 ， 现 在 需要 一 个 公式 ， 以 便 根 据 各 个 组 成 函数 的 导数 来 计算 此 复合 函数 的 导数 。 这 就 
是 接 下 来 要 介绍 的 内 容 。 
1.4 ” 链 式 法 则 


链 式 法 则 是 一 个 数学 定理 ， 用 于 计算 复合 函数 的 导数 。 从 数学 上 讲 ， 深 度 学 习 模 型 就 是 
复合 函数 。 因 此 ， 理 解 其 导数 的 计算 过 程 对 于 训练 它们 非常 重要 ， 接 下 来 的 几 童 将 详 述 


























在 数学 上 ， 这 个 定理 看 起 来 较为 复杂 ， 对 于 给 定 的 值 x， 我 们 有 : 











PE 
i dh (i(7%)) di (x) 
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其 中 4 只 是 一 个 伪 变 量 ， 代 表 函 数 的 输入 。 





当 描 述 具 有 一 个 输入 和 一 个 输出 的 函数 /的 导数 时 ， 可 以 将 代表 该 函数 导数 
的 函 而 数 表 示 为 5 。 可 以 用 其 他 伪 变 量 替代 ww， 这样 做 并 不 会 对 结果 造成 影 
响 ， 就 像 f(x)=x? 和 fy)=y 表示 同一 个 意思 一 样 。 

稍 后 ， 我 们 将 处 理 包含 多 个 输入 例如 和) 的 函数 。 一 旦 磁 到 这 种 情况 ， 区 
分 对 和 史 之 间 的 不 同 含义 就 是 有 意义 的 。 











四 








dx 
这 就 是 为 什么 在 前 面 的 公式 中 ， 我 们 在 所 有 的 导数 中 将 w 放 在 了 底部 : fh 和 所 都 
是 接受 一 个 输入 并 产生 一 个 输出 的 函数 ， 在 这 些 情况 下 (有 一 个 输入 和 一 个 输出 
的 函数 )， 我 们 将 在 导数 符号 中 使 用 u。 


























示意 图 
对 理解 链 式 法 则 而 言 ， 本 节 中 的 数学 公式 不 大 直观 。 对 此 ， 盒 子 表示 法 会 更 有 帮助 。 下 面 
通过 简单 的 有 示例 来 解释 导数 “应 该 ”是 什么 ， 如 图 1-8 所 示 。 



























































1-8: 链 式 法 则 示意 图 


直观 地 说 ， 使 用 图 1-8 中 的 示意 图 ， 复 合 函 数 的 导数 应 该 是 其 组 成 函数 的 导数 的 乘积 。 假 
J 第 一 个 函数 中 输入 5， 并 且 当 w=5 上 时， 第 一 个 函数 的 导数 是 3， 那么 用 公式 表示 就 是 
一 (5)=3 。 

du 

















然后 取 第 一 个 盒子 中 的 函数 值 ， 假 设 它 是 1， 即 /5) =1 ， 再 计算 第 二 个 函数 所 在 这 个 值 
上 的 导数 ， 即 计算 时 0) 。 妇 如 图 1-8 所 示 ， 这 个 值 是 -2。 
想象 这 些 函 数 实际 上 是 串 在 一 起 的 ， 如 果 将 盒子 2 对 应 的 输入 更 改 1 单位 会 导致 合 
子 2 的 输出 产生 -2 单位 的 变化 ， 将 盒子 2 对 应 的 输入 更 改 3 单位 则 会 导致 金子 2 的 和 
出 变化 -6 (-2 x3) 单位 。 这 就 是 为 什么 在 链 式 法 则 的 公式 中 ， 最 终结 果 是 一 个 乘积 
CCD)x 到 0 。 
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利用 数学 和 示意 图 这 两 个 维度 ， 我 们 可 以 通过 使 用 链 式 法 则 来 推断 髓 套 函 数 的 输出 相对 于 
其 输入 的 导数 值 。 那 么 计算 这 个 导数 的 代码 如 何 编写 呢 ? 


代码 
下 面 对 此 进行 编码 ， 并 证 明 按 照 这 种 方式 计算 的 导数 会 产生 “看 起 来 正确 ”的 结果 。 这 里 
将 使 用 square 函数 以 及 sigmoid 函数 ， 后 者 在 深度 学 习 中 非常 重要 : 





def sigmoid(x: ndarray) -> ndarray: 


将 sigmoid 函 数 应 用 于 输入 ndarray 中 的 每 个 元 素 。 





return 1 / (1 + np.exp(-x)) 
现在 编写 链 式 法 则 : 


def chain_deriv_2(chain: Chain, 
input_range: ndarray) -> ndarray: 


使 用 链 式 法 则 计算 两 个 嵌 套 函数 的 导数 : (f271x) = f2(f 1 1(x) 。 
assert len(chain) == 2, \ 
"This function requires 'Chain' objects of Length 2" 


assert input_range.ndim == 1, \ 
"Function requires a 1 dimensional ndarray as input_range" 


f1 = chain[0] 
f2 = chain[1] 
# df1/dx 


fl of x = fi(input_range) 


# df1/du 
dfidx = deriv(f1, input_range) 


# df2/du(f1(x)) 
df2du = deriv(f2, fi(input_range)) 


# 在 每 一 点 上 将 这 些 量 相 乘 
return dfidx * df2du 





图 1-9 绘制 了 结果 ， 并 展示 了 链 式 法 则 的 有 效 性 : 
PLOT_RANGE = np.arange(-3, 3, 0.01) 


chain 1 
chain 2 


[square, sigmoid] 
[sigmoid, square] 





注 2: 参见 1.1 节 的 “NumpPy 库 中 的 基础 函数 ”部 分 。 
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plot_chain(chain_ 1, PLOT_RANGE) 
plot_chain_deriv(chain_1, PLOT_RANGE) 


plot_chain(chain_2, PLOT_RANGE) 
plot_chain_deriv(chain 2, PLOT_RANGE) 





f(x)= sigmoid(square(x)) f(x)= Square (sigmoid (x)) 
国 数 以 及 导数 国 数 以 及 导数 



































图 1-9: 链 式 法 则 的 有 效 性 

链 式 法 则 似乎 起 作用 了 。 当 国 数 向 上 倾斜 时 ， 导 数 为 正 ， 当 国 数 向 下 倾斜 时 ， 导 数 为 负 ， 
当 函 数 未 发 生 倾斜 时 ， 导 数 为 才 。 

因此 ， 实 际 上 只 要 各 个 函数 本 身 是 基本 可 微 的 ， 就 可 以 通过 数学 公式 和 代码 计算 租 套 函数 
(或 复合 函数 ) 的 导数 ， 例 如 fi。 

从 数学 上 讲 ， 深 度 学 习 模 型 是 这 些 基 本 可 微 函数 的 长 链 。 建 议 花 时 间 和 手动 执行 稍 长 一 点 的 
详细 示例 (参见 1.5 节 )， 这 样 有 助 于 直观 地 理解 链 式 法 则 ， 包 括 其 运行 方式 以 及 在 更 复杂 
的 模型 中 的 应 用 。 
































1.5 示例 介绍 

仔细 研究 一 条 稍 长 的 链 ， 假设 有 3 个 基本 可 微 的 函数 ,分 别 是 有、 和 ， 如 何 计算 它 
们 的 导数 呢 ?” 从 前 面 提 到 的 微 积 分 定理 可 以 知道 ， 由 任意 有 限 个 “基本 可 微 ” 函 数组 成 的 
复合 函数 都 是 基本 可 微 的 。 因 此 ， 计 算 导 数 应 该 不 难 实现 。 






































注 3: 请 在 图 灵 社 区 上 查看 该 图 的 彩色 版 本 ， 参 见 ituring.cn/book/2759。 一 一 编者 注 
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数学 


从 数学 上 讲 ， 对 于 包含 3 个 基本 可 微 的 函数 的 复合 函数 ， 其 导数 的 计算 公式 如 下 : 














df 


A eA 的 


仅仅 看 公式 不 是 很 直观 ， 但 相 比 1.4 市 介绍 的 守 鸭 = 于 (GD)x 人 0 适用 于 长 度 为 2 的 
链 ， 两 者 的 基本 逻辑 是 一 样 的 。 





示意 图 
要 理解 以 上 公式 ， 最 为 直观 的 方法 就 是 通过 盒子 示意 图 ， 如 图 1-10 所 示 。 


5 于 


2 本 fC) 本 FCO 


Wn Nn 一 












































图 1-10: 通过 盒子 表示 法 理解 如 何 计算 3 个 谱 套 函数 的 导数 


使 用 与 14 节 中 类 似 的 逻辑 ， 假 设 万 广 的 输入 ( 称 为 c) 通过 一 根 线 连接 到 输出 ( 称 
为 5)， 如 术 。 必 和 四 旺 A， 攻 时 玫 有 安 化 人 的 C9 信 ， 过 而 下 链 的 下 一 步 
CO) 变化 A 的 竺 (GD)x 全 (Cn 售 ， 以 此 类 扒 ， 直 芭 最 终 表示 变化 的 完整 公式 等 于 前 
一 个 链 式 法 则 乘 以 A， 请 仔细 因此 上 述 解 释 和 图 1-10 中 的 示意 图 ， 无 须 花费 太 长 时 间 。 在 
编写 代码 时 ， 这 一 点 会 更 容易 理解 。 


代码 
在 给 定 组 合 国 数 的 情况 下 ， 如 何 将 本 节 中 的 公式 转换 为 计算 导数 的 代码 呢 ? 我 们 可 以 在 这 
个 简单 的 示例 中 看 到 神经 网 络 前 向 传递 和 后 向 传递 的 雏形 : 
























































def chain_deriv_3(chain: Chain, 
input_range: ndarray) -> ndarray: 


使 用 链 式 法 则 来 计算 3 个 肉 套 函数 的 导数 : 
F320 =f3020100) *f2010)) *f1'0)。 


assert len(chain) == 3, \ 
"This function requires 'Chain' objects to have length 3" 


f1 = chain[0] 
f2 = chain[1] 
f3 = chain[2] 
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# f1(x) 


fl of x = fi(input_range) 


# f2(f1(x)) 


f2_of_x = f2(f1_of_x) 


# df3du 


df3du = deriv(f3, f2_of_x) 


# df2du 


df2du = deriv(f2, f1_of_x) 


# df1dx 


dfidx = deriv(f1, input_range) 


# 在 每 一 点 上 将 这 些 量 相 乘 
return dfldx * df2du * df3du 





注意 ， 在 计算 这 个 嵌 套 函数 的 链 式 法 则 时 ， 这 里 对 它 进 行 了 两 次 “传递 ”。 
入 


1.“ 向 前 ”传递 它 ， 计 算出 f1_of_x 和 f2_of_x， 这 个 过 程 可 以 称 作 (或 视 作 )“ 前 向 传 


递 ” 





2.“ 向 后 ”通过 函数 ， 使 用 在 前 向 传递 中 计算 出 的 量 来 计算 构成 导数 的 量 。 
最 后 ， 将 这 3 个 量 相 乘 ， 得 到 导数 。 








接 下 来 使 用 前 面 定义 的 3 个 简单 函数 来 说 明 上 面 的 方法 是 可 行 的 ， 这 3 个 函数 分 别 为 sigmoid、 


square 和 leaky_relu。 


PLOT_RANGE = np.range(-3, 3, 0.01) 
plot_chain([leaky_relyu, sigmoid, square], PLOT_RANGE) 
plot_chain_deriv([leaky_rely, sigmoid, square], PLOT_RANGE) 


1-11 显示 了 结果 。 











-3 


sigmoidlsquarelleakyrelu(X))) 
sigmoidlsquarelleakyrelu(X)))’ 


“ = 0 1 2 











图 1-11: 即使 使 用 三 重 谋 套 范 数 ， 链 式 法 则 也 有 效 “ 








注 4: 请 在 图 灵 社 区 上 查看 该 图 














的 彩 





色 版 本 ， 参 见 ituring.cn/book/2759 


。 一 一 编者 注 





再 次 将 导数 图 与 原始 函数 的 斜率 进行 比较 ， 可 以 看 到 链 式 法 则 确实 正确 地 计算 了 导数 。 


基于 以 上 理解 ， 现 在 再 来 看 一 下 具有 多 个 输入 的 复合 函数 ， 这 类 函数 遵循 已 经 建立 的 相同 
原理 ， 最 终 将 更 适用 于 深度 学 习 。 


1.6 多 输入 函数 


至 此 ， 我 们 已 经 从 概念 上 理解 了 如 何 将 函数 串 在 一 起 形成 复合 函数 ， 并 且 知 道 了 如 何 将 这 
函数 表示 为 一 系列 输入 或 输出 的 盒子 ， 以 及 如 何 计算 这 些 函 数 的 导数 。 一 方面 通过 数学 
式 理解 了 导数 ， 另 一 方面 通过 “向 前 ”组 件 和 “向 后 ”组 件 ， 根 据 传递 过 程 中 计算 出 的 
理解 了 导数 。 


深度 学 习 中 处 理 的 函数 往往 并 非 只 有 一 个 输入 。 相 反 ， 它 们 有 多 个 输入 ， 在 某 些 步骤 
， 这 些 输入 以 相 加 、 相 乘 或 其 他 方式 组 合 在 一 起 。 正 如 下 面 介绍 的 ， 我 们 同样 可 以 计算 
这 些 国 数 的 输出 相对 于 其 输入 的 导数 。 现 在 假设 存在 一 个 有 多 个 输入 的 简单 场景 ， 其 中 两 
个 输入 相 加 ， 然 后 再 输入 给 另 一 个 函数 。 


在 这 个 例子 中 ， 从 数学 意义 上 开始 讨论 实际 上 很 有 帮助 。 如 果 输 入 是 x 和 y， 那 么 可 以 认 
为 函数 分 两 步 进行 。 在 步 又 1 中, x 和 y 传 到 了 将 它们 相 加 的 函数 。 将 该 函数 表示 为 2 
(整个 过 程 使 用 希腊 字母 表示 函数 名 )， 然 后 将 函数 的 输出 表示 为 a。 从 形式 上 看 ， 这 样 很 
容易 表示 : 




















Dm 


















































ja 纪 | 民 


此 

















注 














了 如许 























a=Q(X,y)=X+y 


步骤 2 是 将 a 传 给 某 个 函数 ac (o 可 以 是 任意 连续 函数 ， 例 如 sigmoid 函数 或 square 函数 ， 
其 至 是 名 称 不 以 s 开头 的 函数 )。 将 此 函数 的 输出 表示 为 s， 也 就 是 : 





Ss=0o(a) 
将 整个 函数 用 f 表 示 ， 可 以 写作 : 
f(x,p)= (x+y) 


从 数学 意义 上 理解 ， 这 样 更 为 简洁 ， 但 这 实际 上 是 两 个 按 顺 序 执行 的 运算 ， 这 一 点 在 表达 
式 中 较为 模糊 。 为 了 说 明 这 一 点 ， 来 看 示意 图 。 














示意 图 
既然 谈 到 了 多 输入 函数 ， 现 在 来 定义 我 们 一 直 在 讨论 的 一 个 概念 : 用 箭头 表示 数学 运算 顺 
序 的 示意 图 叫 作 计算 图 (computational graph) 。 例 如 ， 图 1-12 展示 了 上 述 函 数 的 计算 图 。 











基本 概念 | 15 





;二 国 一 一 国 一 : 











图 1-12: 多 输入 函数 


可 以 看 到 ， 两 个 输入 进入 a 输出 a， 然后 a 再 被 传递 给 了 ca 。 


代码 


对 此 进行 编码 非常 简单 。 但 是 要 注意 ， 必 须 添 加 一 条 额外 的 断言 : 


def multiple inputs _add(x: ndarr 

y: ndarr 

sigma: A 

具有 多 个 输入 和 加 法 的 函数 ， 前 
assert x.shape == y.shape 


a=x+y 
return sigma(a) 


ay， 
ay， 
rray_Function) -> float: 


向 传递 。 





与 本 章 前 面 提 到 的 函数 不 同 ， 对 于 输入 ndarray 的 每 个 元 素 ， 这 个 函数 不 只 是 简单 地 进行 
“ 逐 元 素 ” 运 算 。 每 当 处 理 将 多 个 ndarray 作为 输入 的 运算 时 ， 都 必须 检查 它们 的 形状 ， 从 





而 确保 满足 该 运算 所 需 的 所 有 条 件 。 在 这 里 ， 对 于 像 加 法 这 样 的 简 





状 是 否 相同 ， 以 便 逐 元 素 进行 加 法 运算 。 


1.7 多 输入 函数 的 导数 





可 以 根据 函数 的 两 个 输入 来 计算 其 输 晶 


数学 


8 的 导数 ， 这 一 点 很 容易 理 





E 解 。 





上 运算， 只 需要 检查 形 


链 式 法 则 在 这 些 函 数 中 的 应 用 方式 与 前 面 各 市 介绍 的 方式 相同 。 由 于 f(x,y)=o(Q(x,y)) 








是 骨 套 函数 ， 因 此 可 以 这 样 计算 导数 : 
of _8 








Ox 








当然 ， 7 的 计算 公式 与 此 相同 。 


现在 要 注意 : 


0 
(oy)) =1 


0 0 0 
a (CC x (ac = 二 人 +y) x (oy)) 








无 论 x (或 ?) 的 值 如 何 , x (或 y) 每 增加 一 单位 ，a 都 会 增加 一 单位 。 
基于 这 一 点 ， 稍 后 可 以 通过 编写 代码 来 计算 这 样 一 个 函数 的 导数 。 


eee 























示意 图 

从 概念 上 讲 ， 计 算 多 输入 函数 的 导数 与 计算 单 输入 函数 的 导数 所 用 的 方法 是 相同 的 ， 计算 
每 个 组 成 函数 “后 向 ”通过 计算 图 的 导数 ， 然 后 将 结果 相 乘 即 可 得 出 总 导数 ， 如 图 1-13 
所 示 。 




















3 (a0x,y) 0 (0) 
Ol 


二 一 一 加 一 : 
图 1-13: 多 输入 函数 后 向 通过 计算 图 


代码 


def multiple inputs_add_ backward(x: ndarray, 
y: ndarray, 
sigma: Array_Function) -> float: 











计算 这 个 简单 函数 对 两 个 输入 的 导数 。 
# 计算 前 向 传递 结果 


a=x+y 


# 计算 导数 


dsda = deriv(sigma, a) 





dadx, dady = 1, 1 
return dsda * dadx, dsda * dady 
当然 ， 你 可 以 修改 以 上 代码 ， 比 如 让 x 和 y 相 乘 ， 而 不 是 相 加 。 
接 下 来 将 研究 一 个 更 复杂 的 示例 ， 该 示例 更 接近 于 次 度 学 习 的 工作 原理 : 一 个 与 前 一 示例 
类 似 的 函数 ， 但 包含 两 个 向 量 输入 。 
1.8 ”多 问 量 输入 函数 


深度 学 习 涉 及 处 理 输 入 为 向 量 (vector) 或 矩阵 (matrix) 的 函数 。 这 些 对 象 不 仅 可 以 进行 
加 法 、 乘 法 等 运算 ， 还 可 以 通过 点 积 或 矩阵 乘法 进行 组 合 。 前 面 提 到 的 链 式 法 则 的 数学 原 
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理 ， 以 及 使 用 前 向 传递 和 后 向 传递 计算 函数 导数 的 逻辑 在 这 里 仍然 适用 ， 本 章 剩余 部 分 将 
对 此 展开 介绍 。 


这 些 技术 将 最 终 成 为 理解 深度 学 习 有 效 性 的 关键 。 深 度 学 习 的 目标 是 使 模型 拟 合 某 些 数 
据 。 更 准确 地 说 ， 这 意味 着 要 找到 一 个 数学 函数 ， 以 尽 可 能 最 优 的 方式 将 对 数据 的 观测 
(将 作为 函数 的 输入 ) 映射 到 对 数据 的 目标 预测 (将 作为 函数 的 输出 )。 这 些 观测 值 将 被 纺 
码 为 矩阵 ， 通 常 以 行 作为 观测 值 ， 每 列 则 作为 该 观测 值 的 数字 特征 。 第 2 章 将 对 此 进行 更 
详细 的 介绍 ， 现 阶段 必须 能 够 计算 涉及 点 积 和 和 矩阵 乘法 的 复杂 函数 的 导数 。 






































下 面 从 数学 维度 精确 定义 上 述 概念 。 
数学 








在 神经 网 络 中 ， 表 示 单 个 数据 点 的 典型 方法 是 将 n 个 特征 列 为 一 行 ， 其 中 每 个 特征 都 只 是 
一 个 数字 ? 如 Xl 时 2 等 表示 如 下 : 





天 =[2 We x,] 


这 里 要 记 住 的 一 个 典型 示例 是 预测 房价 ， 第 2 章 将 从 零 开 始 针对 这 个 示例 构建 神经 网 络 。 
在 该 示例 中 ，%、% 等 是 房屋 的 数字 特征 ， 例 如 房屋 的 占 地 面积 或 到 学 校 的 距离 。 


1.9 基于 已 有 特征 创建 新 特征 


神经 网 络 中 最 常见 的 运算 也 许 就 是 计算 已 有 特征 的 加 权 和 ， 加 权 和 可 以 强化 某 些 特征 而 弱 
化 其 他 特征 ， 从 而 形成 一 种 新 特征 ， 但 它 本 身 仅仅 是 旧 特 征 的 组 合 。 用 数学 上 的 一 种 简洁 
的 方式 表达 就 是 使 用 该 观测 值 的 点 积 (dot product) ， 包 含 与 特征 (WwW，…， w,) 等 长 的 一 
组 权重 。 下 面 分 别 从 数学 、 示 意图 、 代 码 等 维度 来 探讨 这 个 概念 。 






































数学 
如 采 存 在 如 下 情况 : 
Wi 
W=| … 
1 
那么 可 以 将 此 运算 的 输出 定义 为 : 
N=v(X,W)= XxW=x xW+x XWw, + + XWw, 

















弹 
Ee 
省 








注意 ， 这 个 运算 是 矩阵 乘法 的 一 个 特例 ， 它 恰好 是 一 个 点 积 ， 因 为 全 只 有 一 和 
有 一 列 。 


接 下 来 介绍 用 示意 图 描绘 它 的 几 种 方法 。 





示意 图 
可 以 通过 一 种 简单 的 方法 来 描绘 这 种 运算 ， 如 图 1-14 所 示 。 





输入 输出 


四 
一, 确 一 
-es 


1-14: 矩阵 乘法 (向量 点 积 ) 示意 图 (一 ) 











图 1-14 中 的 运算 接受 两 个 输入 (都 可 以 是 ndarray) ， 并 生成 一 个 输出 ndarray。 








对 涉及 多 个 输入 的 大 量 运算 而 言 ， 这 确实 做 了 很 大 的 简化 。 但 是 我 们 也 可 以 突出 显示 各 个 
运算 和 输入 ， 如 图 1-15 和 图 1-16 所 示 。 


























1-15: 和 矩 阵 乘法 示意 图 (二 ) 





i 


kKHK 人 Hx 
¥ 
党 











1-16: 和 矩 阵 乘法 示意 图 (三 ) 
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注意 ， 和 矩阵 乘法 (向量 点 积 ) 是 表示 许多 独立 运算 的 一 种 简洁 方法 。 这 种 运算 会 让 后 向 传 
递 的 导数 计算 起 来 非常 简洁 ， 下 一 节 将 介绍 这 一 点 。 


代码 
对 箱 阵 乘法 进行 编码 很 简单 ， 


def matmul_forward(X: ndarray, 
W: ndarray) -> ndarray: 


计算 算 阵 乘法 的 前 向 传递 结果 。 





assert X.shape[1] == W.shape[0], \ 


对 于 和 矩阵 乘法 ， 第 一 个 数组 中 的 列 数 应 与 第 二 个 数组 中 的 行 数 相 匹配 。 而 这 里 ， 
第 一 个 数组 中 的 列 数 为 {0}， 第 二 个 数组 中 的 行 数 为 {1}。'"' 
.format(X.shape[1], W.shape[0]) 








# 矩阵 乘法 
N = np.dot(X, W) 





return N 


这 里 有 一 个 新 的 断言 ， 它 确保 了 和 矩阵 乘法 的 有 效 性 。( 这 是 第 一 个 运算 ， 它 不 仅 处 理 相 同 
大 小 的 ndarray， 还 逐 元 素 执行 运算 ， 而 现在 的 输出 与 输入 实际 上 并 不 匹配 。 因 此 ， 这 个 
断言 很 重要 。) 


1.10 多 向 量 输入 函数 的 导数 


对 于 仅 以 一 个 数字 作为 输入 并 生成 一 个 输出 的 函数 ， 例 如 f(x) = 妆 或 /Co =sigmoid(x) ， 

计算 导数 很 简单 ， 只 需 应 用 微 积分 中 的 规则 即 可 。 然 而 ， 对 于 向 量 函 数 ， 其 导数 就 没有 

那么 简 音 了， 如 果 将 点 积 写 为 WX, 所 )= 这 种 形式 ， 那么 自然 会 产生 一 个 问题 ， SY 和 
分 别 是 什么 ? 




















oW 


数学 
如 何 定义 “和 矩阵 的 导数 ”? 回顾 一 下 ， 和 矩阵 语法 只 是 对 一 堆 以 特定 形式 排列 的 数字 的 简 
写 ,“ 和 欠 阵 的 导数 ”实际 上 是 指 “ 秆 阵 中 每 个 元 素 的 导数 ”"。 由 于 着 有 一 行 ， 因 此 它 可 以 这 
样 定义 : 








Ov |0Or Or OO 
oxX 


Ox x, x, 








然而 ,vv 的 输出 只 是 一 个 数字 : N=X%XW+X XW + XW 。 














可 以 看 到 ， 如 果 厂 改变 了 < 


单位 ， 那 么 NN 将 改变 w xc 单位 。 同 理 ， 其 他 的 x 元 素 也 满足 这 种 情况 。 因 此 可 以 得 出 下 





面 的 公式 : 


ox 




















Ca 
Ox, 


Ww 
Ov 


Ov 


ww 
3 
Ox 


=[w, WwW w| =W 














这 个 结果 出 乎 意料 地 简练 ， 和 掌握 这 一 点 极为 关键 ， 既 可 以 理解 深度 学 习 的 有 效 性 ， 又 可 以 


知道 如 何 清晰 地 实现 深度 学 习 。 


以 此 类 推 ， 可 以 得 到 如 下 公式 。 


示意 图 
从 概念 上 讲 ， 我 们 只 想 执行 








图 1-17 所 示 的 操作 。 





输入 














图 1-17: 矩 阵 乘法 的 后 向 传递 














如 前 面 的 例子 所 示 ， 当 只 处 理 加 法 和 乘法 时 ， 计 算 这 些 导 数 很 容易 。 但 是 如 何 利用 矩阵 乘 





法 实现 类 似 的 操作 呢 ? 图 1-17 中 的 示意 
的 数学 公式 。 





图 并 不 直观 ， 要 准确 地 定义 它 ， 必 须 求 助 于 本 节 中 
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代码 


从 数学 上 推算 答案 应 该 是 最 困难 的 部 分 ， 对 结果 进行 编码 则 比较 简单 ; 

















def matmul_backward_first(X: ndarray, 
W: ndarray) -> ndarray: 


计算 矩阵 乘法 相对 于 第 一 个 参数 的 后 向 传递 结果 。 





# 后 向 传递 
dNdX = np.transpose(W, (1, 0)) 


return dNdX 





这 里 计算 的 dNdx 表示 XX 的 每 个 元 素 相对 于 输出 NN 的 和 的 偏 导 数 。 在 本 书 中 ， 这 个 量 有 一 
个 特殊 的 名 称 ， 即 关 的 梯度 (gradient)。 这 个 概念 是 指 ， 对 于 关 的 单个 元 素 (例如 x )， 
dNdx 中 的 对 应 元 素 (具体 来 说 是 dNdx[2]) 是 向 量 点 积 入 的 输出 相对 于 尺 的 偏 导 数 。 在 本 
书 中 ,梯度 仅 指 偏 导数 的 多 维 对 应 物 。 具 体 来 说 ， 它 是 函数 输出 相对 于 该 函数 输入 的 每 个 
元 素 的 偏 导数 数组 。 


1.11 回 量 函 数 及 其 导数 : 再 进一步 

当然 ,深度 学 习 模 型 不 止 涉 及 一 个 运算 ， 它 们 包括 长 链 式 运算 ， 其 中 一 些 是 1.10 市 介绍 
的 向 量 函 数 ， 另 一 些 则 只 是 将 函数 逐 元 素 地 应 用 于 它们 接受 的 ndarray (输入 ) 中 。 现 在 
来 计算 包含 这 两 种 函数 的 复合 函数 的 导数 。 假 设 函 数 接受 向 量 半 和 向 量 不 ， 执 行 1.10 市 
描述 的 点 积 (将 其 表示 为 YX, 丈 ) )， 然 后 将 向 量 输入 到 函数 o 中 。 这 里 将 用 新 的 语言 来 
表达 同样 的 目标 : 计算 这 个 新 函数 的 输出 相对 于 向 量 半 和 向 量 画 的 梯度 。 从 第 2 章 开始 ， 
本 书 将 详细 介绍 它 如 何 与 神经 网 络 相 关联 。 现 在 只 需 大 至 了 解 这 个 概念 ， 也 就 是 可 以 为 任 
意 复杂 度 的 计算 图 计算 梯度 。 


数学 
公式 很 简单 ， 如 下 所 示 。 

















s=f/(X, W)=o(v(X, W))=o(x Xxw +x, xXw,+x XWw,) 


示意 图 
1-18 与 图 1-17 类 似 ， 只 不 过 在 最 后 添加 了 函数 c 。 























0 一 :三 一 一 四 








1-18: 与 图 1-17 类 似 ， 但 在 最 后 添加 了 另 一 个 函数 


代码 


可 以 像 下 男 





这 样 编写 本 例 中 的 函数 。 














def matrix_ forward_extra(X: ndarray， 
W: ndarray, 
sigma: Array_Function) -> ndarray: 


计算 涉及 矩阵 乘法 的 函数 (一 个 额外 的 函数 ) 的 前 向 传递 结果 





assert X.shape[1] == W.shape[0] 


# 矩阵 乘法 
N = np.dot(X, W) 





# 通过 sigma 传 递 矩 阵 乘 法 的 输出 
S = sigma(N) 


return S 





问 量 函 数 及 其 导数 : 后 向 传递 

类 似 地 ， 后 向 传递 只 是 前 述 示例 的 直接 扩展 。 

1. 数学 

由 于 了 (X, 矿 ) 是 和 能 套 国 数 ， 具 体 来 说 就 是 F(CX, 丈 ) = acCO(X, 矿 )) ， 因 此 该 函 
导数 可 以 这 样 表示 : 














Of _ 6oc 


A — (V(X, W)x HX, W) 





0Oa 
BY W))= (XXw +x XWw, +x xXw,) 


数 在 X 处 的 


这 是 一 个 很 好 的 定义 ，o 是 连续 函数 ， 可 以 在 任意 点 求 导 。 在 这 里 ， 只 在 XxXw +Xy XW 十 











XxXw 处 对 其 求 值 。 


此 外 ,我们 在 1.10 市 的 示例 中 已 经 推断 出 Ew, 球 )= 歼 - 。 因 此 ， 可 以 这 检 





表达 : 
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ER W)x eX 




















OX A 
与 前 面 的 示例 一 样 ， 由 于 最 终 答案 是 数 
状 相同 的 向 量 ， 因 此 这 个 公式 会 

2. 示意 图 


图 1-19 所 示 的 这 个 函数 的 后 向 传递 示意 
解释 。 移 阵 乘 法 的 结果 包含 所 计算 的 ec 国 
个 乘法 。 


得 出 一 个 与 生 形 状 相 同 的 向 革 


= xW to XW +X XWw) XW 


Pr 


= 全 





0 
2 Caxm txXw+X3XW) 乘 以 W 中 的 与 外 形 


且 . 





县 


0° 





图 与 前 面 的 例子 类 似 ， 甚 至 不 需要 在 数学 上 做 过 多 
数 的 导数 ， 只 需要 在 这 个 导数 的 基础 上 再 添加 





























图 1-19: 带 有 矩阵 乘法 的 图 : 后 向 传递 


3. 代码 


对 后 向 传递 进行 编码 也 很 简单 ; 








def matrix_ function backward_1(X: 
W: 


sigma: Array_Function) 


ndarray， 
ndarray， 
-> ndarray : 


计算 和 矩阵 函数 相对 于 第 一 个 元 素 的 导数 。 


assert X.shape[1] == 


# 矩阵 乘法 
N = np.dot(X, W) 


# 通过 sigma 传 递 矩 阵 乘法 的 输出 
S = sigma(N) 

# 
dSdN = deriv(sigma, N) 


# dNdX 
dNdX = np.transpose(W, (1, 0) 


# 将 它们 相 乘 。 因 
return np.dot(dSdN，dNdX) 


























W.shape[0] 


) 


为 这 里 的 dNdx 是 1x 1， 所 以 顺序 无 关 紧 要 





注意 ， 这 里 显示 的 动态 效果 与 1.5 节 中 3 个 能 套 函 数 示 例 显 示 的 动态 效果 相同 : 计算 前 向 
传递 (这 里 指 N) 上 的 量 ， 然 后 在 后 向 传递 期 间 进行 使 用 。 
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4. 这 是 对 的 吗 ? 
如 何 判 断 正 在 计算 的 这 些 导数 是 否 正确 ? 测试 起 来 很 简单 ， 就 是 稍微 扰动 输入 并 观察 输出 
结果 的 变化 。 例 如 ， 在 这 种 情况 下 ,XX 为 : 


print(X) 
[[ 0.4723 0.6151 -1.7262]] 





如 果 将 x 增加 0.01， 即 从 -1.7262 增加 到 -1.7162， 那 么 应 该 可 以 看 到 由 输出 梯度 相对 于 
x x0.01 的 前 向 函数 生成 的 值 有 所 增加 ， 如 图 1-20 所 示 。 





输出 














梯度 : 某 处 的 斜率 
了 


这 差异 应 接近 (原始 值 ) + 
(梯度 ) x (0.01) 


输出 : 新 值 


输出 : 原始 值 


当前 值 当前 值 
+0.01 














图 1-20: 梯度 检查 示意 图 
利用 matrix_function_backward_1 国 数 ， 可 以 看 到 梯度 是 -0.1121: 


print(matrix_function backward_1(X, W, sigmoid)) 
[[ 0.0852 -0.0557 -0.1121]] 


可 以 看 到 ， 在 将 x 递增 0.01 之 后 ， 函 数 的 输出 相应 减少 了 约 0.01 x -0.1121 = -0.001121， 
这 可 以 帮助 测试 该 梯度 是 否 正确 。 如 果 减 幅 (或 增幅 ) 大 于 或 小 于 此 量 ， 那 么 关于 链 式 
法 则 的 计算 就 是 错误 的 。 然 而 ， 当 执行 计算 时 ， 少 量 增加 x 确实 会 使 函数 的 输出 值 减 小 
909.01 x -0.1121， 这 意味 着 计算 的 导数 是 正确 的 | 


1.12 节 介 绍 的 示例 涉及 前 面 介绍 的 所 有 运算 ， 并 且 可 以 直接 用 于 第 2 章 将 构建 的 模型 。 


1.12 包含 两 个 二 维和 矩阵 输入 的 计算 图 


在 次 度 学 习 和 更 通用 的 机 器 学 习 中 ， 需 要 处 理 输入 为 两 个 二 维 数组 的 运算 ， 其 中 一 个 数组 
表示 一 批 数 据 X， 另 一 个 表示 权重 万 。 这 对 建 模 上 下 文 很 有 帮助 ， 第 2 章 将 对 此 展开 介 
绍 。 本 章 仅 关注 此 运算 背后 的 原理 和 数学 意义 ， 具 体 来 说 ， 就 是 通过 一 个 简单 的 示例 详细 
说 明 ， 我 们 不 再 以 一 维 向 量 的 点 积 为 例 ， 而 是 介绍 二 维和 矩阵 的 乘法 。 即 便 如 此 ， 本 童 介绍 
的 推算 过 程 仍然 具有 数学 意义 ， 并 且 实 际 上 非常 容易 编码 。 
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和 以 前 一 样 ， 从 数学 上 看 ， 得 出 这 些 结果 并 不 困难 ， 但 过 程 看 起 来 有 点 复杂 。 不 管 怎 样 ， 
结果 还 是 相当 清晰 的 。 当 然 ， 我 们 会 对 甚 按 步 骤 进 行 分 解 ， 并 将 甚 与 代码 和 示意 图 联系 
起 来 。 


数学 


假设 X 和 灭 如 下 所 示 ， 








Xl Xl Xl 
X= No XN Xs 
[i 





1 X32 X33 
W1 Wb 
W =|w, w,, 
[wm W32 

















这 可 能 对 应 一 个 数据 集 ， 其 中 每 个 观测 值 都 具有 3 个 特征 ，3 行 可 能 对 应 要 对 其 进行 预测 
的 3 个 观测 值 。 




















现在 将 为 这 些 答 阵 定义 以 下 简单 的 运算 。 

1 将 这 些 和 矩阵 相 乘 。 和 以 前 一 样 ， 将 把 执行 此 运算 的 函数 表示 为 X, Wy) ， 将 输出 表示 
为 N。 因 此 ， 可 以 这 样 表示 : N=v(X, 有 ) 。 

2. 将 结果 入 传递 给 可 微 函数 c ， 并 定义 $=o(N) 。 
































和 以 前 一 样 ， 现 在 的 问题 是 : 输出 $ 相 对 于 和 和 了 球 的 梯度 是 多 少 ? 可 以 简单 地 再 次 使 用 
链 式 法 则 吗 ? 为 什么 ? 




















注意 ， 本 例 与 之 前 的 示例 有 所 不 同 : 5 不 是 数字 ， 而 是 矩阵 。 那 么 ， 一 个 矩阵 相对 于 男 一 
矩阵 的 梯度 意味 着 什么 呢 ? 


这 就 引出 了 一 个 微妙 但 十 分 重要 的 概念 ， 可 以 在 目标 多 维 数组 上 执行 任何 一 系列 运算 ,但 
是 要 对 某 些 输出 定义 好 梯度 ， 这 需要 对 序列 中 的 最 后 一 个 数组 求 和 “(或 以 其 他 方式 聚合 成 
单个 数字 )， 这样 “XX 中 每 个 元 素 的 变化 会 在 多 大 程度 上 影响 输出 ”这 一 问题 才 有 意义 。 


因此 ， 在 最 后 添加 第 3 个 函数 人， 该 函数 获取 5 中 的 元 素 并 将 其 求 和 。 
通过 数学 把 它 具 体 化 。 首 先 ， 把 和 丈 相 乘 : 





XXWItX XW tA XW XXW tA XW + XX Wy 


XxW= x XW tx XW ty XW Xo X Wy + xX X Wy 十 223 X Ws 

















XXWIT XX WT X33 XW XX Wat X32 XW tT X33 X Ws 


XW XW 
=| XW XW 
XW XW,, 




















为 了 便于 书写 结果 矩阵， 这 里 将 第 i 行 的 第 j 列表 示 为 XW 。 
接 下 来 ， 将 该 结果 输入 到 o 中， 这 意味 着 将 o 应 用 于 Xx 万 矩阵 中 的 每 个 元 素 : 











(ei XWiT XX Wt XX Wi1) (ei XW TA XW Thx Ws,) 


o(XxW)= OX XWItX XW tA WI) OX XW tx XW + XXW,) 














[oO XWwitXyX Wt Ww) OXxXw 十 232 XW 十 23 XW) 
| o(XW) o(XW,) 
o(XW,) o(XW,,) 
[oO(XW) o(XW,) 





o(XW) o(XW,) 

L=A(o(XxW)=A | oAXW) o(XW,)||=oXW)+o(XW,)+o(XW,)+ 
o(XW) o(XW,,) 

o(XW,,)+o(XW)+o(XW,,) 


现在 回 到 了 纯 微 积分 的 场景 中 : 存在 一 个 数字 工 ， 想 计算 出 世相 对 于 X 和 了 球 的 梯度 ， 也 
就 是 明确 这 些 输 入 矩阵 中 每 个 元 素 〈2、W 等 ) 的 变化 对 工 的 影响 。 可 以 这 样 写 : 











| OA OA OA 
A Go) Bu Coco) Bu (X13) 








OA OA OA OA 
5 Br a) Br Coo) Br 3) 





OA OA OA 
| ou (X31) Bu (x,) Bh (x3;) 




















至 此 ， 我 们 已 经 从 数学 上 理解 了 所 面临 的 问题 ， 接 下 来 讨论 示意 图 层面 和 代码 层面 




















o 











示意 图 
从 概念 上 讲 ， 与 前 面 介绍 的 多 输入 函数 的 计算 图 相 比 ， 包 含 两 个 二 维和 矩阵 输入 的 运算 所 做 
的 工作 其 实 是 类 似 的 ， 如 图 1-21 所 示 。 
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OP 一 | 二 | 一 > 5 一 一 >| 和 | 一 
1-21: 具有 复杂 前 向 传递 函数 的 计算 图 


这 里 只 是 像 以 前 一 样 向 前 发 送 输入 。 有 一 点 需要 明确 : 即使 在 这 个 更 复杂 的 场景 中 ， 也 应 
该 能 够 使 用 链 式 法 则 计算 所 需 的 梯度 。 


代码 


对 于 输入 为 两 个 二 维 数组 的 运算 ， 可 以 像 下 面 这 样 编码 。 











def matrix_function_forward_sum(X: ndarray， 
W: ndarray， 
sigma: Array_Function) -> float: 


输入 ndarray (X、W) 以 及 函数 sigma， 计 算 该 函数 的 前 向 传递 结果 。 
assert X.shape[1] == W.shape[0] 


# 矩阵 乘法 
N = np.dot(X, W) 





# 通过 sigma 传 递 矩 阵 乘 法 的 输出 
S = sigma(N) 


# 将 所 有 元 素 相 加 
L = np.sum(S) 





return L 


1.13 ”有趣 的 部 分 : 后 向 传递 


现在 ， 要 对 函数 “执行 后 向 传递 *"， 这 样 一 来 ， 即 使 涉及 算 阵 乘法 ， 也 可 以 最 终 计 算出 入 
相对 于 输入 ndarray 的 每 个 元 素 的 梯度 。 在 学 完 本 章 之 后 ， 就 能 轻松 地 在 第 2 章 中 开始 训 
练 真正 的 机 器 学 习 模 型 。 下 面 先 从 概念 上 明确 要 学 习 的 内 容 。 


数学 

注意 ， 可 以 直接 计算 。 值 工 实 际 上 是 从 2 、2a 直到 ms 的 一 个 国 数 。 

但 是 ， 这 似乎 很 复杂 。 链 式 法 则 的 全 部 要 点 就 是 将 复杂 函数 的 导数 分 解 成 简单 的 部 分 ， 对 
每 个 部 分 执行 计算 ， 然 后 把 结果 相 乘 。 如 此 一 来 ， 对 这 些 操作 进行 编码 就 变 得 很 容易 : 只 


需要 逐步 进行 前 向 传递 ， 保 存 传递 过 程 中 的 结果 ， 然 后 使 用 这 些 结果 来 计算 后 向 传递 所 需 
的 所 有 导数 。 

















注 5: 接 下 来 重点 计算 入 相对 于 的 梯度 ,但 历 的 梯度 可 以 通过 类 似 的 方法 来 计算 。 
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下 面 展示 这 种 方法 仅 适 用 于 涉及 矩阵 的 情况 。 开 始 深入 讨论 吧 。 
可 以 将 工 写 成 A(o(v(X, 所 ))) 。 如 果 这 是 一 个 常规 国 数 ， 就 可 以 这 样 编写 链 式 法 则 : 











OA Ov (ole OA 
oC I 





然后 依次 计算 3 个 偏 导数 。 前 面 在 计算 包含 3 个 嵌 套 函数 的 复合 函数 的 导数 时 ， 我 们 使 用 
链 式 法 则 分 别 对 每 个 函数 进行 了 求 导 ， 这 里 要 执行 同样 的 操作 。 图 1-22 (参见 下 一 页 ) 表 
明 ， 该 方法 同样 适用 于 这 种 函数 。 

由 于 一 阶 导 数 最 直接 ， 因 此 这 里 从 一 阶 导 数 开始 计算 ， 主 要 是 确定 当 S 中 每 个 元 素 值 增加 
时 ，A 的 输出 工 的 增长 情况 。 由 于 工 是 5S 中 所 有 元 素 的 总 和 ， 因 此 这 个 导数 很 简单 : 
































只 要 5 中 的 任何 元 素 有 所 增加 ， 比 如 增加 0.46 个 单位 ，A 就 会 增加 0.46 单位 。 





接 下 来 得 到 他 (N)。 这 只 是 对 X 中 元 素 进行 求 值 的 任 一 函数 o 的 导数 。 在 前 面 使 用 的 
XW 语法 中 ， 这 同样 很 容易 计算 : 














GORY. CY 
Ou 


pp TOW,) 
1 





CXW) 2 
Ou | 


OA 
注意 ， 我 们 现在 可 以 肯定 地 说 ， 能 够 将 这 两 个 导数 按 元 素 逐 个 相 乘 并 计算 地-(N) : 





| 0 0 | | 0 0 | 
CD XW) TXW) XW) 
1 1 
OA OA Oo Oo Oo Oo 0Oa 
(N)=—(S)x—(N)= (XW) —(XW,) |x|Il 1=|—(XW,) —(XW,,) 
u Ou Ou Ou Ou Ou Ou 
O00 O00 1 1 O00 O00 
Br Hr) Br 人 

















然而 ， 现 在 陷入 了 困境 。 基 于 图 1-22 并 应 用 链 式 法 则 ， 接 下 来 要 做 的 是 获取 空 (AD 。 但 
是 ， 回 想 一 下 , v 的 输出 只 是 XX 与 丈 矩 阵 相 乘 的 结果 。 因 此 ， 这 里 要 知道 YV (3x2 算 
阵 ) 中 每 个 元 素 随 着 关中 每 个 元 素 (3 x3 矩阵 ) 的 增加 而 增加 的 量 。 如 果 上 面 的 表述 难 
以 理解 ， 只 要 明确 一 点 就 可 以 了 ， 那 就 是 现在 根本 不 清楚 如 何 定义 它 ， 或 者 无 法 确定 这 样 
做 真 的 有 效 。 

















让 
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为 什么 会 出 现 这 个 问题 呢 ? 以 前 ， 我 们 很 幸运 ， 由 于 XX 入 在 形状 上 可 以 相互 转 
换 ， 因 此 可 以 证 明 字 (X)=WV" 和 二 (WF)=X"。 现 在 可 以 得 出 类 似 的 结论 吗 ? 

“2 ”的 值 

更 具体 地 说 ,现在 需要 和 弄 清 楚 以 下 公式 中 的 “? ”到 底 是 什么 。 








[00 O00 | 
Br FD) Br 82) 


x 
"3 


OA OA Oo O00 
Be NE Br SP) Br SW) 








Or Oo 
| 





证 明 ， 根 据 乘法 的 计算 方式 ,“? ”处 的 内 容 就 是 天 ， 这 和 刚才 看 到 的 向 量 点 积 的 简 
单 示例 是 一 样 的 。 有 一 种 方法 可 以 验证 这 一 点 ， 那 就 是 直接 针对 关中 的 每 个 元 素 计算 工 的 
偏 导 数 。 这 样 一 来 "， 得 到 的 矩阵 确实 显著 地 分 解 成 : 
































OA OA 0 
X)= S N)xW! 
Bm ) a )* ) x 





其 中 第 一 个 乘法 是 逐个 元 素 执行 的 ， 第 二 个 则 是 矩阵 乘法 。 


这 意味 着 ， 即 使 计算 图 中 的 运算 涉及 将 矩阵 与 多 行 和 多 列 相 乘 ， 并 且 即 使 这 些 运 算 的 输出 
形状 与 输入 的 形状 不 同 ， 仍 然 可 以 将 这 些 运 算 包 含 在 计算 图 中 ， 并 且 使 用 “ 链 式 法 则 ” 逻 
辑 对 它们 进行 反 向 传播 。 这 个 结果 非常 重要 ， 如 果 没 有 这 个 结果 ， 那 么 训练 深度 学 习 模 型 
将 变 得 更 加 烦琐 ， 后 文 会 进一步 介绍 这 一 点 。 





示意 图 
本 例 的 示意 图 与 1.12 节 中 的 类 似 ， 如 图 1-22 所 示 。 

















1-22: 复杂 函数 中 的 后 向 传递 





注 6: 更 多 介绍 参见 附录 的 “和 矩阵 链 式 法 则 ”。 





攻 
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只 需要 计算 每 个 组 成 国 数 的 偏 导数 ， 在 其 输入 处 进行 求 值 ， 并 将 结果 相 乘 ， 就 可 以 得 到 最 
终 的 导数 。 要 依次 计算 这 些 偏 导数 ， 唯 一 的 方法 就 是 从 上 述 数学 层面 计算 。 


代码 


现在 通过 代码 封装 前 面 推导 出 的 内 容 ， 此 过 程 有 助 于 加 深 对 内 容 的 理解 : 




















def matrix_function_backward_sum_1(X: ndarray， 
W: ndarray， 
sigma: Array_Function) -> ndarray: 


计算 矩阵 函数 相对 于 第 一 个 矩阵 输入 的 和 的 导数 。 





assert X.shape[1] == W.shape[0] 


# 阜 阵 乘法 
N = np.dot(X, W) 








# 通过 sigma 传 递 矩 阵 乘 法 的 输出 
S = sigma(N) 


# 将 所 有 元 素 相 加 
L = np.sum(S) 


# 注意 ， 这 里 按 数量 指 代 导数 ， 这 点 与 数学 不 同 ， 在 数学 中 使 用 的 是 它们 的 函数 名 


# dLds 一 一 都 是 1 
dLdS = np.ones_Like(S) 








# dSdN 
dSdN = deriv(sigma, N) 


# dLdN 
dLdN = dLdS * dSdN 


# dNdX 
dNdX = np.transpose(W, (1, 0)) 


# dLdX 
dLdX = np.dot(dSdN, dNdxX) 


return dLdX 
现在 ， 确 认 一 切 正 常 : 
np.random.seed(190204) 


X = np.random.randn(3, 3) 
W = np.random.randn(3, 2) 


print("X:") 
print(X) 


print("L:") 
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print(round(matrix_function_forward_sum(X, W, sigmoid), 4)) 
print() 

print("dLdX:") 

print(matrix_function backward_sum 1(X, W , sigmoid)) 


[-1.5775 -0.6664 0.6391] 
[-0.5615 0.7373 -1.4231] 
[-1.4435 -0.3913 0.1539]] 


dLdX: 

[[ 0.2489 -0.3748 0.0112] 
[ 0.126 -0.2781 -0.1395] 
[ 0.2299 -0.3662 -0.0225]] 





和 前 面 的 示例 一 样 ， 由 于 dLdX 表示 站 相对 于 工 的 梯度 ， 因 此 这 意味 着 ， 左 上 角 的 元 素 表 
OA (X WW)=0.2489。 


Ox 


dl 
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如 果 这 个 示例 的 矩阵 数学 是 正确 的 ， 则 将 x 增加 0.001 会 导致 工 增加 0.01x0.2489 。 事 实 
上 ， 代 码 的 运行 情况 是 这 样 的 : 


X1 = X.copy() 
Xi[0, 0] += 0.001 

















Ti 


print(round( 
(matrix_function_ forward_sum(X1, W, sigmoid) - \ 
matrix_function_forward_sum(X, W, sigmoid)) / 0.001, 4)) 
0.2489 


看 起 来 梯度 的 计算 是 正确 的 ! 


直观 地 描述 梯度 

回 到 前 面 提 到 的 内 容 ， 将 元 素 x 传递 给 具有 多 重 运 算 的 函数 ， 包 括 和 矩阵 乘法 、sigmoid 函 
数 、 求 和 运算 。 其 中 的 矩阵 乘法 实际 上 是 由 矩阵 和 中 的 9 个 输入 与 矩阵 丈 中 的 6 个 输入 
相 结 合 ， 从 而 创建 出 的 6 个 输出 的 简写 。 然 而 ， 也 可 以 将 其 视 为 单独 的 函数 WNSL， 如 医 
1-23 所 示 。 















































将 坟 ZL 变化 
向 上 提升 < 0.25a 


-ET 


图 1-23: 用 单个 函数 WNSL 来 描述 庶 套 函数 


Xl 











由 于 每 个 函数 都 是 可 微 的 ， 因 此 整个 函数 就 是 一 个 以 wi 为 输入 的 可 微 函 数 。 另 外 ， 梯 度 就 
。 为 了 使 其 可 视 化 ， 可 以 简单 地 绘制 ZL 随 着 的 变化 而 变化 的 情况 。 








i 


il 
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2 的 初始 值 是 -1.5775: 


print("X:") 
print(X) 


[-1.5775 -0.6664 0.6391] 
[-0.5615 0.7373 -1.4231] 
[-1.4435 -0.3913 0.1539]] 





对 于 将 X 和 丈 输 入 到 前 面 定义 的 计算 图 中 ， 或 者 说 将 X 和 丈 输 入 到 前 面 代 码 调用 的 函数 
中 ， 如 果 绘 制 整个 过 程 中 所 得 到 的 工 值 的 图 像 ， 并 且 除了 22，(X[0, 0]) 外 不 做 任何 变动 ， 
可 以 得 到 图 1-24 所 示 的 结果 。 


























26 ] 








-250 -225 -200 -175 -150 -125 -100 -075 -0'50 
X11 











图 1-24: 在 保持 X 和 W 的 值 为 常数 的 情况 下 , 上 与 Xi; 的 对 应 关系 


确实 ， 在 只 变动 x 的 情况 下 ， 这 种 关系 看 起 来 很 明显 。 可 以 看 到 ， 此 函数 在 纵 轴 上 大 约 增 
加 了 0.5 (从 刚好 超过 2.1 到 刚好 超过 2.6) ， 并 且 在 模 轴 上 大 约 增加 了 2。 因 此， 斜率 大 约 
为 了 =025， 这 正 是 刚刚 计算 的 结果 ! 











复杂 的 矩阵 数学 事实 上 正确 地 计算 了 L 相对 于 关中 所 有 元 素 的 偏 导数 。 此 外 ， 可 以 用 类 似 
的 方法 计算 工 相 对 于 丈 的 梯度 。 


工 相 对 于 到 的 梯度 的 表达 式 为 X 。 但 是 ，X" 表达 式 中 的 因子 是 从 工 的 导数 中 
导出 的 ， 考 虑 到 它们 的 顺序 ，X' 将 位 于 工 相 对 于 到 的 梯度 的 表达 式 的 左 侧 : 
OA 下 OA 有 (oles 
(W)=X 3 (9) 加 (N) 














因此 ， 尽 管 代码 中 出 现 了 dNdx = np.transpose(X，(1，0))， 但 下 一 步 将 是 : 
dLdu = np.dot(dNdX，dSdN) 
而 不 是 之 前 的 dLdx = np.dot(dSdN，dNdX) 。 





























注 7: 这 里 展示 的 只 是 matrix_function_backward_sun 函数 的 子 集 。 完 整 函数 可 以 从 图 灵 社 区 下 载 : ituring. 
cn/book/2759。 编者 注 
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1.14 小结 


学 完 本 章 之 后 ， 你 应 该 有 信心 理解 复杂 的 嵌 套 数学 函数 ， 并 通过 将 它们 概念 化 为 一 系列 盒 
子 来 解释 它们 的 工作 原理 ， 每 个 盒子 代表 一 个 由 线 连接 的 单一 组 成 函数 。 尤 其 需要 注意 的 
是 ， 即 使 存在 涉及 二 维 ndarray 的 矩阵 乘法 ， 也 可 以 编写 代码 来 计算 这 些 函 数 的 输出 相对 
于 任何 输入 的 导数 ， 理 解 正确 计算 这 些 导 数 背 后 的 数学 原理 。 掌 握 这 些 基本 概念 ， 有 助 于 
接 下 来 构建 和 训练 神经 网 络 。 加 油 ! 


















































第 2 章 





基本 原理 


第 1 章 介 绍 了 深度 学 习 主 要 的 构成 要 素 ， 包 括 租 套 、 连 续 和 可 微 的 函数 ， 展 示 了 如 何 将 这 
些 函 数 表示 为 计算 图 (图 中 的 每 个 节点 代表 一 个 简单 函数 )， 特 别论 证 了 在 计算 柑 套 函数 
的 输出 相对 于 其 输入 的 导数 时 ， 计 算 图 很 容易 展示 计算 过 程 ， 即 只 需 提 取 所 有 组 成 函数 的 
导数 , 在 这 些 函 数 接收 输入 时 计算 这 些 导 数 , 并 将 所 有 结果 相 乘 ' 。 论 证 过 程 涉及 一 些 示 例 ， 
这 些 示例 中 的 函数 以 NumPy 库 的 ndarray 作为 输入 ， 并 将 生成 的 ndarray 作为 输出 。 当 
然 , 还 有 一 些 其 他 示例 ， 它 们 说 明 即 使 函数 将 多 个 ndarray 作为 输入 并 通过 和 矩阵 乘法 将 它 








们 组 合 在 一 起 ， 这 种 计算 导数 的 方法 仍然 有 效 。 和 矩阵 乘法 与 其 




















他 运算 不 同 ， 它 可 以 改变 其 


输入 的 形状 。 具 体 地 说 ， 如 果 此 运算 的 一 个 输入 是 X (BxN 的 ndarray)， 另 一 个 输入 是 
WW (NxM 的 ndarray)， 其 输出 了 就 是 一 个 BxM 的 ndarray ”。 虽 然 该 运算 的 导数 尚 不 明 
确 ,但 可 以 看 到 ， 当 和 矩阵 乘法 v(X, W) 作为 一 种 “组 合 运算 ”包含 在 舱 套 函数 中 时 ,仍然 
可 以 使 用 一 种 简单 的 表达 式 代 蔡 导 数 来 计算 其 输入 的 导数 : 确切 地 讲 ， 就 是 站 "可 以 代替 


人 pp) ，W7 则 可 以 代 赤字 (X)， 
Ou Ou 


本 章 将 开始 把 这 些 概念 转换 为 真实 的 应 用 程序 ， 具 体 涉及 以 1 


1. 根据 第 1 章 介绍 的 构成 要 素 解释 线性 





回归 。 





2. 证 明 在 第 1 章 中 所 做 的 关于 导数 的 计算 能 够 训练 这 种 线性 
3. 运用 同样 的 构成 要 素 将 此 模型 扩展 为 单 层 神经 网 络 。 








i 








E 2: 这 里 的 、N、M 分别 是 不 同 的 自然 数 。 


ee 





上 E 1: 基于 链 式 法 则 ， 通 过 这 种 方式 生成 的 租 套 函数 的 导数 是 正确 的 。 


回归 模型 。 


下 几 项 操作 。 


当 完 成 以 上 操作 后 ， 就 能 轻松 地 在 第 3 章 中 运用 相同 的 构成 要 素来 构建 深度 学 习 模型 。 
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不 过 ， 在 深入 探讨 这 些 内 容 之 前 ， 先 简要 描述 一 下 监督 学 习 。 监 督学 习 (supervised learning) 
是 机 器 学 习 的 子 集 ， 下 面 将 在 研究 如 何 使 用 神经 网 络 解 决 问题 时 对 其 着 重 研 究 。 


2.1 监督 学 习 概 述 


概括 地 讲 ， 可 以 将 机 器 学 习 描 述 为 构建 一 些 算法 ， 这 些 算法 可 以 发 据 或 “学 习 ” 数 据 中 的 
关系 (relationship)。 监 督学 习 是 机 器 学 习 的 子 集 ， 专 用 于 发 现 已 测量 的 数据 属性 之 间 的 
关系 





























本 章 将 解决 实际 可 能 遇 到 的 一 个 典型 的 监督 学 习 问 题 : 找到 房屋 的 属性 与 价值 之 间 的 关 
系 。 显 然 ， 像 房间 数量 、 占 地 面积 、 是 否 靠近 学 校 以 及 对 居住 或 拥有 房屋 的 渴望 程度 等 ， 
这 些 属性 之 间 存 在 一 定 的 关系 。 总 体 来 说 ， 鉴 于 已 经 测量 了 这 些 属性 ， 监 督学 习 的 目的 就 
是 发 掘 这 些 属性 之 间 的 关系 。 


所 谓 “ 测 量 "， 指 的 是 每 个 属性 均 已 被 精确 地 定义 并 表示 为 一 个 数字 。 房 屋 的 许多 属 | 
比如 房间 数量 、 占 地 面积 等 ， 自 然 适合 用 数字 进行 表示 ， 但 是 对 于 其 他 不 同类 型 的 属性 ， 
比如 TripAdvisor 网 站 上 对 某 地 周边 环境 的 整体 评价 ， 就 不 容易 用 数字 表示 了 。 而 且 ， 如 
果 以 一 种 合理 的 方式 将 这 些 不 太 结构 化 的 数据 转换 成 数字 ， 那 么 可 能 会 影响 发 掘 关 系 的 进 
程 。 另 外 ， 针 对 任何 类 似 房 屋 价值 这 种 非 具 象 的 概念 ， 如 果 必 须 选 择 一 个 数字 来 描述 它 ， 
可 以 选择 使 用 房屋 的 价格 “。 


一 旦 把 “属性 ”转换 成 数字 ， 就 必须 决定 使 用 哪 种 结构 来 表示 这 些 数字 。 在 机 器 学 习 中 ， 
有 一 个 通用 的 方法 能 简化 计算 过 程 ， 那 就 是 将 单个 观测 值 (例如 一 所 房屋 ) 的 每 组 数字 表 
示 成 一 行 数据 ， 然 后 将 这 些 行 堆 倒 在 一 起 形成 数据 的 “ 批 次 ”， 这 些 数据 将 以 二 维 ndarray 
的 形式 输入 到 模型 中 。 模 型 将 输出 ndarray， 也 就 是 返回 预测 结果 (每 一 行 代表 一 个 预测 
结果 )， 这 些 预测 结果 也 彼此 壹 加 ， 批 次 中 的 每 个 观测 值 对 应 一 个 预测 结果 。 


现在 做 一 些 定义 : ndarray 中 每 一 行 的 长 度 是 数据 的 特征 数 。 一 般 来 说 ， 单 个 属性 可 以 映 
射 到 多 个 特征 ， 典 型 的 示例 是 一 个 属性 将 数据 描述 为 某 几 种 类 别 中 的 一 种 “， 例 如 红 砖 房 、 
棕 砖 房 或 石板 房 。 在 这 个 特定 的 示例 中 ， 可 以 用 3 个 特征 来 描述 这 个 属性 。 将 主观 层面 的 
( 非 正 式 的 ) 观测 结果 的 属性 映射 到 特征 的 过 程 称 为 特征 工程 (feature engineering) ， 但 本 
书 不 会 过 多 讨论 这 个 过 程 。 本 章 将 解决 一 个 问题 ， 其 中 每 个 观测 结果 都 有 13 个 属性 ， 每 




















座 
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注 3: 无 监督 学 习 (unsupervised learning) 是 另 一 种 机 器 学 习 ， 可 以 认为 它 是 在 已 测量 的 事物 和 尚未 测量 的 

和 物 之 间 寻 找 关系 。 

注 4: TripAdvisor 是 一 个 旅行 平台 ， 中 文 名 为 “ 猫 途 应 "。 一 一 译 者 注 

注 $: 即使 是 在 实际 问题 中 ， 如 何 选择 价格 也 不 容易 : 选择 最 近 一 次 出 售 房屋 的 价格 吗 ? 如 果 是 一 套 很 久 设 
有 出 售 过 的 房子 ， 该 如 何 选择 呢 ? 在 本 书 的 示例 中 ， 数 据 可 以 明确 用 数字 表示 或 已 经 提前 确定 了 ， 但 
是 在 许多 实际 问题 中 ， 正 确 地 做 到 这 一 点 并 不 简单 。 

注 6: 大 多 数 人 可 能 知道 ， 这 些 叫 作 “ 分 类 特征 ”。 





hil 
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个 属性 都 仅 用 一 个 数值 特征 来 表示 。 





前 面 说 过 ， 监 督学 习 的 最 终 目标 是 发 掘 数据 属性 之 间 的 关系 。 在 实践 中 ， 为 了 做 到 这 一 

















点 ， 需 要 选择 一 个 希望 基于 其 他 属性 而 进行 预测 的 属性 ， 这 个 属性 称 作 目标 (target) 。 





任 


意 属性 都 可 以 用 作 目 标 ， 具 体 取决 于 要 解决 的 问题 。 如 果 目 标 只 描述 房屋 价格 和 房间 数量 
之 间 的 关系 ， 则 可 以 训练 一 个 模型 ， 让 其 以 房屋 价格 为 目标 ， 然 后 把 房间 数量 作为 一 个 特 
征 ， 反 之 亦 然 。 无 论 哪 种 方式 ， 生 成 的 模型 实际 上 都 包含 对 这 两 个 属性 之 间 关系 的 描述 ， 











息 输入 到 模型 中 。 











通过 训练 模型 来 量化 这 些 关系 ， 旨 在 揭示 特征 和 目标 之 间 的 数值 表示 。 





例如 可 以 说 ， 房 间 的 数量 越 多 ， 房 屋 的 价格 就 越 高 。 但 是 ， 如 果 目 标 是 预测 房屋 的 价格 ， 





但 又 没有 可 用 的 价格 信息 ， 则 必须 选择 价格 作为 目标 ， 这 样 经 过 训练 最 终 就 可 以 将 其 











他 信 


a 吉 构 ， 从 发 现 数据 关系 的 最 高 层次 描述 ， 到 最 低层 次 的 





高 层次 





A 对 房屋 的 
0 站 个 
关系 观测 结果 
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如 图 2-1 所 示 ， 本 书 侧重 于 介绍 底部 突出 显示 的 层次 。 但 是 ， 在 很 多 问题 中 ， 保 证 最 上 画 
的 部 分 准确 无 误 ， 涉 及 收集 正确 的 数据 、 定 义 试图 要 解决 的 问题 以 及 开展 特征 工程 ， 这 比 
实际 建 模 要 困难 得 多 。 不 过 ， 由 于 本 书 侧重 建 模 ， 尤 其 侧重 于 介绍 深度 学 习 模 型 的 工作 原 
理 ， 因 此 接 下 来 继续 讨论 该 主题 。 


2.2 监督 学 习 模型 


我 们 已 经 大 至 了解 了 监督 学 习 模 型 的 目标 ， 正 如 本 章 已 经 提 到 的 ， 这 些 模型 只 是 舱 套 的 数 
学 函数 ， 第 1 章 讨 论 了 如 何 用 数学 、 示 意图 和 代码 来 表示 这 些 函 数 。 因 此 ， 本 章 可 以 更 精 
确 地 用 数学 和 代码 ( 稍 后 将 展示 大 量 示意 图 ) 来 解释 监督 学 习 的 目标 : 找到 以 ndarray 为 
输入 和 输出 的 数学 函数 ， 该 函数 可 以 将 观测 值 的 属性 映射 到 目标 ， 即 给 定 包含 所 创建 特征 
的 输入 ndarray， 生 成 输出 ndarray， 其 值 “ 贴 近 ” 包 含 目 标的 ndarray。 


具体 而 言 ， 就 是 用 一 个 抢 阵 X 表 示 数 据 ， 该 矩阵 有 半 行 ， 每 行 代表 一 个 具有 大 个 特征 的 
观测 值 ， 所 有 这 些 特 征 都 是 数字 。 每 一 行 的 观测 值 将 是 以 =[xws%a…xx] 表示 的 向 量 
这 些 观测 值 将 相互 堆 受 在 一 起 形成 一 个 批 次 。 例 如 ， 下 面 是 一 个 大 小 为 3 的 批 次 : 


XA MD Xa Xk 
Koacn = |X XN 23 No 


231 NX 733 Xr 


































































































每 一 批 观 测 值 都 会 有 相应 的 一 批 目 标 ， 其 中 的 每 个 元 素 都 是 对 应 观测 值 的 目标 数字 。 可 以 
将 它们 表示 为 一 维 癌 量 : 














就 这 些 数组 而 言 ， 监 督学 习 的 目标 是 使 用 第 1 章 介绍 的 工具 来 构建 一 个 函数 ， 该 函数 可 
以 将 基于 Xa 结构 的 观测 值 作 为 输入 批 次 ， 然 后 生成 值 为 已 的 向 量 ， 这 个 过 程 称 为 预测 。 
至 少 对 于 特定 数据 集 怀 中 的 数据 而 言 ， 基 于 某 种 合理 的 贴近 度 (closeness) 度量 方法 ， 这 
些 预 测 在 一 定 程度 上 “贴近 ”目标 值 y, 。 

最 后 将 所 有 这 些 具 体 化 ， 并 开始 为 真实 的 数据 集 构建 第 一 个 模型 。 接 下 来 将 从 一 个 简单 的 
线性 回归 模型 入 手 ， 并 展示 如 何 用 第 1 章 介 绍 的 构成 要 素来 表达 它 。 


2.3 线性 回归 


线性 回归 (linear regression) 通常 表示 为 如 下 形式 : 
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y=Pot+PBxXxmt++p, Xx te 


该 表示 法 从 数学 上 描述 了 这 样 一 个 观点 : 每 个 目标 的 数值 是 兰 的 个 特征 的 线性 组 合 ， 再 
加 上 fp 项 以 调整 预测 的 基线 值 ， 即 当 所 有 特征 的 值 为 0 时 所 做 的 预测 。 
当然 ， 这 并 不 能 帮助 你 深入 理解 如 何 编写 代码 以 “训练 ”这 样 一 个 模型 。 要 实现 这 一 点 ， 
必须 将 这 个 模型 转换 成 第 1 章 提 到 的 函数 语言 ， 最 好 从 一 个 示意 图 开始 。 














2.3.1 线性 回归 : 示意 
如 何 将 线性 回归 表示 为 计算 图 ?可 以 将 其 分 解 为 多 个 独立 元 素 ， 每 个 交 与 另 一 个 元 素 “ 相 
乘 ， 然 后 将 结果 相 加 在 一 起 ， 如 图 2-2 所 示 。 





























A 





( 越 小 越 好 ) 








RN 





图 2-2， 从 乘法 和 加 法 的 层面 理解 线性 回归 运算 
正如 在 第 1 章 中 看 到 的 ， 如 果 能 把 这 些 运算 表示 成 矩阵 乘法 ， 就 能 更 简洁 地 编写 函数 ， 同 
时 还 能 正确 地 计算 输出 相对 于 输入 的 导数 ， 这 样 便 可 以 训练 模型 了 。 
应 该 怎么 做 ? 首先 ， 处 理 一 个 较为 简单 的 场景 ， 在 这 个 场景 中 没有 截 距 项 ， 如 前 面 显示 的 
B,。 注 意 ， 可 以 将 线性 回归 模型 的 输出 表示 为 每 个 观测 向 量 =[%%…x] 与 另 一 个 参 
数 向 量 的 点 积 ， 我 们 称 这 个 参数 向 量 为 所 ; 














如 此 一 来 ， 预 测 就 很 简单 .: 
P=xXxW =W xx tw XX tt Wi X Xi 
因此 ， 可 以 使 用 一 个 点 积 运算 来 表示 线性 回归 的 “生成 预测 ”。 


此 外 ， 当 要 使 用 一 批 观测 值 进行 线性 回归 预测 时 ， 可 以 使 用 另 一 个 运算 : 矩阵 乘法 。 如 果 
有 一 个 像 下 面 这 样 的 大 小 为 3 的 批 次 : 
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11 12 23 ”MI 
Xo NX 23 Xo 


Xl X32 X33 Xa 


An 


atch 





执行 此 批 次 Xiao 与 画 的 矩阵 乘法 ， 即 可 根据 需要 给 出 该 批 次 的 预测 向 量 : 


X X 


11 MI 003 Xk WwW, 
Pan = Xoan XW=I x xy Xa | x| 5 
231 Vy X33 Vp 
































XXW + A XW + NX XW + Xi X We n 
=| 2 XxW+X XW + XX + + NX XW |=|B 
Xa XW HX XW + Xa XW + + Xa X Wh P 


因此 ， 可 以 使 用 矩阵 乘法 完成 对 线性 回归 中 的 一 批 观测 值 的 预测 。 接 下 来 将 展示 如 何 利用 
这 一 事实 以 及 第 1 章 中 关于 导数 的 计算 来 训练 该 模型 。 


“训练 ”模型 

“训练 ”一 个 模型 意味 着 什么 呢 ? 概括 地 讲 ， 模 型 接受 数据 ， 并 以 某 种 方式 将 其 与 参数 
(parameter) 进行 组 合 ， 以 生成 预测 结果 “。 例 如 ， 前 面 展 示 的 线性 回归 模型 接受 数据 和 和 
参数 万 ， 并 使 用 和 矩阵 乘法 产生 预测 Ps: 









































但 是 ， 要 训练 模型 ， 还 需要 一 个 关键 信息 ， 即 预测 是 否 正确 。 要 了 解 这 一 点 ， 将 目标 Jnau 
的 向 量 与 传递 给 该 函数 的 一 系列 观测 值 Xusu 关联 起 来 ， 并 计算 出 一 个 数字 ， 它 是 Juae 和 
Poaa 的 函数 ， 代 表 模 型 对 其 所 做 预测 的 “惩罚 "。 这 里 可 以 选择 均 方 误差 (mean squared 
error，MSE)， 即 模型 预测 “失误 ”的 均 方 值 : 






































1 a 2 2 
MSE(a ,=MSE P| y, _0 FR) +(y, 之 + (3 一 已 ) 
五 ] [六 
可 以 把 这 个 数字 称 作 工 ， 这 里 的 关键 是 获得 这 个 数字 ， 一 旦 有 了 它 ， 就 可 以 使 用 第 1 章 介 
绍 的 所 有 技术 来 计算 该 数字 相对 于 丈 中 每 个 元 素 的 梯度 。 然 后 ， 可 以 使 用 这 些 导数 来 更 新 





注 7: 至 少 本 书 中 的 模型 都 具有 这 一 特点 。 
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W 的 每 个 元 素 ， 逐 渐 减 小 L 的 值 。 可 以 多 次 重复 这 一 过 程 ， 从 而 “训练 ”模型 。 你 将 在 本 
章 中 看 到 ， 这 样 做 确实 可 以 在 实践 中 发 挥 作用 。 为 了 清楚 地 了 解 如 何 计算 这 些 梯度 ， 接 下 
来 看 一 下 如 何 用 计算 图 表示 线性 回归 。 


2.3.2 ”线性 回归 : 更 有 用 的 示意 图 和 数学 
图 2-3 显示 了 如 何 使 用 第 1 章 中 的 示意 图 来 表示 线性 回归 。 


Pp 
xX 
一 二 一 日 一 


¥ 






























































图 2-3: 用 计算 图 表示 的 线性 回归 方程 ， 其 中 X 和 Y 是 该 函数 的 数据 输入 ，W 表示 权重 
为 了 强调 图 2-3 仍然 表示 一 个 散 套 函数 ， 可 以 使 用 损失 值 工 ， 最 终 计算 如 下 。 





L=A(vV(X, W), y) 


2.3.3 ”加 入 截 距 项 


将 模型 表示 为 示意 图 ， 这 样 做 可 以 从 概念 上 展示 如 何 向 模型 添加 截 距 项 。 仅 需 在 末尾 添加 
一 个 额外 的 步 纤 ， 即 添加 偏差 项 ， 如 图 2-4 所 示 。 


;二 息 一 里“ 量 一 


( 越 小 越 好 ) 
了 















































图 2-4: 线性 回归 的 计算 图 ， 末 尾 加 上 一 个 偏差 项 


不 过 在 编码 之 前 ， 我 们 应 该 先 从 数学 角度 理解 原理 。 当 加 上 偏差 项 后 ， 模 型 的 预测 值 了 中 
的 每 个 元 素 将 是 前 面 所 述 的 点 积 加 上 4b: 
































XI XW + XW + XW + oo | 


Paon with bias = XdotW +b= XW +Xy XW + XX + + XW +h 














Xa XW+Xy X1 + XX + + XW +h 





注意 ， 因 为 线性 回归 中 的 截 距 项 是 单个 数字 ， 对 于 每 个 观测 值 都 是 一 样 的 ， 所 以 应 该 为 传 
入 偏差 运算 的 输入 的 每 个 观测 值 都 添加 相同 的 数字 。 本 章 稍 后 将 讨论 这 在 计算 导数 方面 的 
意义 。 
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2.3.4 线性 回归 : 代码 


现在 ， 


将 所 有 内 容 结 合 在 一 起 来 编写 函数 ， 这 个 函数 可 以 预测 ， 还 可 以 根据 给 定 的 观测 数 











据 Xowos 及 其 对 应 的 目标 Jae 计算 损失 值 。 回 想 一 下 ， 使 用 链 式 法 则 为 嵌 套 国 数 计算 导数 
涉及 两 个 步骤 : 首先 ， 执 行 前 向 传递 ， 通 过 一 系列 运算 将 输入 连续 向 前 传递 ， 并 保存 计算 


所 得 的 
下 面 的 代码 执行 上 述 操作 ， 将 前 向 传递 中 计算 所 得 的 量 保存 在 字典 中 。 此 外 ， 为 了 区 分 前 





7 

















量 ; 然后 ， 使 用 这 些 量 在 后 向 传递 期 间 计 算 导 数 。 








向 传递 中 计算 所 得 的 量 和 参数 本 身 (后 向 传递 中 同样 需要 )， 该 函数 将 接受 一 个 包含 参数 
的 字典 : 


现在 ， 





def forward_ linear_regression(X_batch: ndarray, 


y_batch: ndarray, 
weights: Dict[str, ndarray]) 
-> Tuple[float, Dict[str, ndarray]]: 


分 步 线性 回归 的 前 向 传递 。 


# 断言 XHy 的 批 次 大 小 相等 
assert X_batch.shape[0] == y_batch.shape[0] 


# 断言 矩阵 乘法 有 效 
assert X_batch.shape[1] == weights['W'].shape[0] 

















# 断言 B 只 是 1 x 1 的 ndarray 
assert weights['B'].shape[0] == weights['B'].shape[1] == 1 


# 执行 前 向 传递 中 的 运算 
N = np.dot(X_batch, weights['W']) 





P= N+ weights['B'] 
loss = np.mean(np.power(y_batch - P, 2)) 


# 保存 前 向 传递 中 计算 的 信息 
forward_info: Dict[str, ndarray] = {} 
forward_info['X'] = X_batch 
forward_info['N'] = N 
forward_info['P'] = P 
forward_info['y'] = y_batch 





return loss, forward_info 


我 们 已 经 准备 就 绕 ， 可 以 开始 “训练 ”这 个 模型 了 。 接 下 来 详细 了 解 训练 模型 的 意 


义 及 其 实现 方法 。 


2.4 训练 模型 


现在 
呢 ? 


本 用 第 1 章 介绍 的 所 有 工具 为 不 中 的 每 个 由 计算 呈 - ， 同 时 也 会 计算 5 。 如 何 实现 
因为 该 函数 的 前 向 传递 是 通过 一 系列 九 套 函数 传递 输入 的 ， 所 以 后 向 传递 将 仅 涉及 计 
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算 每 个 函数 的 偏 导数 ， 算 出 函数 输入 处 的 那些 导数 并 将 它们 相 乘 。 即 使 涉及 和 矩阵 乘法 ， 也 
可 以 使 用 第 1 章 介 绍 的 方法 来 处 理 这 一 问题 。 


2.4.1 计算 梯度 : 示意 图 
从 概念 上 讲 ， 我 们 需要 类 似 图 2-5 所 示 的 效果 。 




















图 2-5: 后 向 传递 线性 回归 计算 图 


我 们 只 需 向 后 退 ， 计 算 每 个 组 成 函数 的 导数 ， 算 出 函数 在 前 向 传递 中 输入 处 的 导数 ， 最 后 
将 这 些 导 数 相 乘 。 这 是 大 致 的 过 程 ， 下 面 来 看 一 下 实施 细 市 。 


2.4.2 ”计算 梯度 : 数学 和 一 些 代码 


从 图 2-5 可 以 看 到 ， 最 终 要 计算 的 导数 乘积 六 
OA Ow Ov 
Be 


它 由 3 个 部 分 组 成 ， 下 面 依次 计算 每 个 部 分 。 








首先 是 2 (P,J 。 对 于 Y 和 中 的 每 个 元 素 ， 因 为 A(P,)=(Y 一 P)? ， 所 以 可 以 得 到 








PY)=-1xQx(-P) 


我 们 有 点 超前 了 ， 但 代码 很 简单 : 


dLdp = -2* (Y - P) 





接 下 来 要 计算 的 是 一 个 涉及 年 阵 的 表达 式 ， 52(N,B) 。 由 于 a 只 是 加 法 ， 因 此 在 第 
1 章 中 用 数字 计算 的 逻辑 同样 适用 于 此 ， 那 就 是 将 NN 中 的 任意 元 素 增加 1 单位， 那么 
P=Q(N,B)=N+8B 会 同时 增加 1 单位。 这 样 来 ，37(N,8) 只 是 一 个 +1+s 的 箱 阵 ， 其 
形状 与 NW 相同。 因此， 这 个 表达 式 对 应 的 代码 非常 简单 ， 如 下 所 示 : 











dPdN = np.ones_like(N) 
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最 后 计算 和 -CKP 。 正如 第 1 章 所 述 ， 当 计算 藤 套 函数 的 导数 时 (其 中 一 个 组 成 函数 是 
和 矩阵 乘法 )， 可 以 这 样 做 : 


代码 很 简单 


OD (XW)=X" 
ow 


dNdW = np.transpose(X, (1, 0)) 


下 面 对 截 距 项 执行 相同 的 操作 。 因 为 只 是 将 其 相 加 ， 所 以 截 距 项 相对 于 输出 的 偏 导 数 就 是 1: 





dPdB = np.ones_like(weights['B']) 


最 后 一 步 是 将 它们 
使 用 正确 的 顺序 。 


相 乘 ， 确 保 根据 第 1 章 所 述 的 计算 过 程 对 涉及 dNdu 和 dNdx 的 算 阵 乘法 





2.4.3 ”计算 梯度 : 完整 的 代码 

我 们 的 目标 是 把 所 有 要 计算 或 输入 的 内 容 都 进行 前 向 传递 (包括 图 2-5 中 的 和、 丈 、N、 孔 、 
PP 和 y) 并 计算 和 地 。 下 面 的 代码 在 名 为 weights 的 字典 中 接收 灰 和 了 作为 输入 ， 
并 在 名 为 forward_info 的 字典 中 接收 其 余 的 量 : 





























def loss gradients(forward_info: Dict[str, ndarray], 


为 分 步 线 人 


weights: Dict[str, ndarray]) -> Dict[str, ndarray]: 





回归 模型 计算 dLdw 和 dLdB。 


batch_size = forward_info['X'].shape[0] 


dLdP = -2 
dPdN = np 
dPdB = np 
dLdN = 

dNdw = np 


* (forward_info['y'] - forward_info['P']) 
.ones_Like(forward_info['N']) 


.ones_Like(weights['B']) 


dLdP * dPpdN 


.transpose(forward_info['X'], (1, 0)) 


# 需要 在 此 处 使 用 矩阵 乘法 ， 左 侧 为 Nd (参见 第 1 章 末 尾 的 注释 ) 


didW = np 





# 需要 沿 表 示 批 次 大 小 的 维度 求 和 (参见 本 章 末 尾 的 注释 ) 


.dot(dNdW, dLdN) 





dLdB = (dLdP * dPdB).sum(axis=0) 


Loss_gradients: Dict[str, ndarray] = {} 
loss_gradients['W'] = dLdw 
Loss_gradients['B'] = dLdB 


return loss_gradients 
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如 你 所 见 ， 只 需 计算 每 个 运算 的 导数 ， 然 后 将 它们 依次 相 乘 ， 注 意 按 正确 的 顺序 进行 矩阵 
乘法 “。 你 将 在 下 文中 了 解 到 ， 这 种 方法 确实 有 效 ， 而 且 第 1 章 已 经 介绍 了 链 式 法 则 ， 这 样 
做 其 实 并 不 奇怪 。 




















关于 这 些 损失 梯度 ， 有 一 个 实现 细节 : 将 它们 存储 为 字典 ， 其 中 权重 的 名 称 作 为 
键 ， 权 重 的 增加 对 损失 的 影响 作为 值 。weights 字典 的 结构 与 此 相同 。 因 此 ， 我 
们 将 按 以 下 方式 迭代 模型 中 的 权重 ， 



































for key in weights.keys(): 
weights[key] -= learning_rate * loss_grads[key] 





以 这 种 方式 存储 它们 没有 什么 特别 之 处 。 如 果 采 用 不 同 的 存储 方式 ， 只 需 遍 历 并 
以 不 同 的 方式 引用 它们 即 可 。 





2.4.4 ”使 用 梯度 训练 模型 


接 下 来 ， 只 需 重复 执行 以 下 步骤 即 可 。 


1. 选择 一 批 数 据 。 

2. 执行 前 向 传递 。 

3. 使 用 在 前 向 传递 中 计算 所 得 的 信息 执行 后 向 传递 。 
4. 使 用 在 后 向 传递 中 计算 的 梯度 来 更 新 权重 。 








在 本 章 的 Jupyter Notebook 中 有 一 个 train 函数 ， 该 函数 对 以 上 过 程 进行 了 编码 ， 过 程 没 
有 太 大 新 意 ， 只 是 实现 了 上 述 步 骤 ， 并 添加 了 一 些 合理 的 内 容 ， 例 如 混 洗 数据 一 一 确保 数 
据 以 随机 顺序 输入 。 以 下 是 关键 的 代码 行 ， 它 们 会 在 for 循环 内 重复 出 现 : 




















forward_info, loss = forward_loss(X_batch, y_batch, weights) 
loss_grads = loss_gradients(forward_info, weights) 


for key in weights.keys(): # weights 和 Loss_grads 具 有 相同 的 键 
weights[key] -= learning_rate * loss_grads[key] 





然后 ， 把 train 函数 运行 一 定 的 轮 数 ， 或 者 在 整个 训练 数据 集中 循环 运行 它 ， 如 下 所 示 : 





train_ info = train(X_train, y_train, 
learning_rate = 0.001， 
batch_size=23, 
return_weights=True, 
seed=80718) 





train 函数 返回 train_info 元 组 ， 其 中 一 个 元 素 是 表示 模型 所 学 内 容 的 参数 ， 也 就 是 权重 。 





注 8: 另外 ， 必 须 沿 轴 0 对 dLde 求 和 ， 本 章 稍 后 会 涉及 这 一 步骤 的 更 多 细节。 








基本 原理 | 45 


在 深度 学 习 中 ,“ 参 数 ” 和 “权重 ”这 两 个 术语 可 以 互 换 。 鉴 于 此 ， 本 书 将 灵活 
地 使 用 它们 。 











2.5 评估 模型 : 训练 集 与 测试 集 

要 判断 模型 是 否 揭示 了 数据 间 的 关系 ， 必 须 从 统计 学 中 引入 一 些 术语 和 思维 方式 。 我 们 认 
为 所 有 接收 到 的 数据 集 都 是 来 自 总 体 (population) 的 样本 (sample)。 尽 管 有 时 仅 有 一 个 
样本 ， 但 目标 始终 是 找到 揭示 总 体 中 各 种 关系 的 模型 。 

这 里 始终 存在 一 种 风险 ， 即 构建 的 模型 拾取 了 样本 中 存在 但 总 体 中 并 不 存在 的 关系 。 例 
如 ， 在 示例 中 可 能 是 带 有 3 间 浴 室 的 黄色 石板 房 相 对 便宜 ， 虽 然 总 体 中 可 能 不 存在 这 种 关 
系 ， 但 我 们 构建 的 复杂 神经 网 络 模型 很 可 能 采用 这 种 关系 。 这 是 一 个 过 拟 合 (overfitting) 
问题 。 如 何 检测 所 使 用 的 模型 结构 是 否 可 能 出 现 这 个 问题 呢 ? 

解决 方案 就 是 将 样本 分 为 训练 集 (training set) 和 测试 集 (testing set) 。 使 用 训练 集训 练 模 
型 (迭代 更 新 权重 ) ， 然 后 在 测试 集 上 评估 模型 的 性 能 。 

这 里 的 逻辑 在 于 ， 如 果 模 型 能 够 成 功 地 从 训练 集 泛 化 到 样本 的 其 余部 分 (整个 数据 集 )， 
那么 相同 的 “模型 结构 ”将 很 可 能 从 样本 整个 数据 集 〉 泛 化 到 总 体 ， 这 也 是 最 终 目标 。 


2.6 评估 模型 : 代码 


基于 前 述 内 容 ， 下 面 在 测试 集 上 评估 模型 。 首 先 ， 我 们 将 编写 一 个 国 数 ， 通 过 截断 
forward_loss 函数 来 生成 预测 结果 : 





























def predict(X: ndarray， 
weights: Dict[str, ndarray]): 








从 分 步 线性 回归 模型 生成 预测 结果 。 

N = np.dot(X, weights['W']) 

return N + weights['B'] 
然后 ， 使 用 之 前 从 train 函数 返回 的 权重 编写 以 下 代码 : 

preds = predict(X_test, weights) # weights = train_info[0] 

预测 准确 度 如 何 呢 ? 这 里 采用 看 似 奇 怪 的 方法 ， 将 模型 定义 为 一 系列 运算 ， 并 通过 友 代 调 
整 相 关 参 数 来 训练 它们 。 在 调整 参数 时 ， 需 要 计算 相对 于 使 用 链 式 法 则 的 参数 的 损失 偏 导 
数 。 但 要 注意 的 是 ， 现 在 这 种 方法 还 没有 得 到 验证 。 如 果 这 种 方法 行 之 有 效 ， 一 定 会 很 有 
帮助 。 











为 了 查看 模型 是 否 有 效 ， 可 以 绘制 图 表 ， 用 x 轴 表 示 模 型 的 预测 值 ， 用 y 轴 表 示 实 际 值 。 
如 果 每 个 点 正好 落 在 45 度 线 上 ， 则 该 模型 将 是 完美 的 。 图 2-6 显示 了 模型 的 预测 值 和 实际 
值 的 曲线 图 。 











实际 什 











预测 值 











2-6: 自 定义 线性 回归 模型 的 预测 值 与 实际 值 
图 2-6 看 起 来 不 错 ， 现 在 来 量化 模型 的 好 坏 。 有 许多 常见 的 方法 可 以 做 到 这 一 点 ， 举 例如 下 。 
。 计算 模型 的 预测 值 与 实际 值 之 间 的 平均 距离 (以 绝对 值 表示 )， 该 度量 称 为 平均 绝对 误 


差 (mean absolute error) : 





def mae(preds: ndarray, actuals: ndarray): 
计算 平均 绝对 误差 。 
return np.mean(np.abs(preds - actuals)) 
。 计算 模型 的 预测 值 与 实际 值 之 间 的 均 方 距离 ， 该 度量 称 为 均 方 根 误差 (root mean squared 
error) : 
def rmse(preds: ndarray, actuals: ndarray): 
计算 均 方 根 误差 。 
return np.sqrt(np.mean(np.power(preds - actuaLs，2))) 
对 本 例 中 的 模型 来 说 ， 平 均 绝 对 误差 是 3.5643， 均 方 根 误差 是 5.0508。 


由 于 和 目标 的 标 度 相同 ， 因 此 均 方 根 误差 是 一 种 特别 常见 的 度量 。 如 果 将 这 个 数字 除 以 
目标 的 平均 值 ， 就 可 以 得 出 预测 值 与 实际 值 相差 的 平均 度量 。 由 于 y_test 的 平均 值 为 
22.0776， 因 此 该 模型 对 房价 的 预测 平均 降低 了 5.0508/22.076 兰 22.9% 。 





这 些 数字 有 什么 用 吗 ? 在 包含 本 章 代码 的 Jupyter Notebook 中 ， 可 以 看 到 ， 当 使 用 最 流行 
的 Python 机 器 学 习 库 scikit-learn 对 该 数据 集 执行 线性 回归 时 ， 得 到 的 平均 绝对 误差 和 
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均 方 根 误差 分 别 为 3.5666 和 5.0482， 这 实际 上 与 之 前 在 “基于 基本 原则 ”的 线性 回归 中 计 
算 的 结果 相差 无 几 。 这 也 在 一 定 程度 上 证 明 ， 本 书 所 采用 的 方法 确实 是 推算 和 训练 的 有 
效 方法 ! 在 本 章 的 后 面部 分 和 第 3 章 中 ， 我 们 会 将 这 种 方法 扩展 到 神经 网 络 和 深 度 学 习 模 


型 中 。 









































分 析 最 重要 的 特征 

在 开始 建 模 之 前 ， 缩 放 数据 的 每 个 特征 ， 使 其 均值 为 0， 标 准 差 为 1。 这 样 做 在 计算 上 具 
有 优势 ， 第 4 章 将 详细 讨论 。 另 外 ， 针 对 线性 回归 ， 这 种 做 法 的 一 个 好 处 是 可 以 将 系数 的 
绝对 值 解释 为 不 同 特征 对 模型 的 重要 性 。 系 数 越 大 ， 意 味 着 特征 越 重要 。 系 数 如 下 所 示 : 











np.round(weights['W'].reshape(-1), 4) 


array([-1.0084, 0.7097, 0.2731, 0.7161, -2.2163, 2.3737, 0.7156, 
-2.6609, 2.629, -1.8113, -2.3347, 0.8541,-4.2003] 


最 后 一 个 系数 的 绝对 值 最 大 ， 这 意味 着 数据 集中 的 最 后 一 个 特征 最 为 重要 。 图 2-7 针对 目 
标 值 绘制 了 这 个 特征 。 











目标 值 
日 








T 
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0 1 
最 重要 的 特征 〈 经 过 归 一 化 ) 


T 
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图 2-7: 自 定义 线性 回归 中 最 重要 的 特征 与 目标 值 

可 以 看 到 ， 这 个 特征 确实 与 目标 值 密切 相关 : 随 着 该 特征 的 增加 ， 目 标 值 逐 渐 减 小 ， 反 之 
亦 然 。 但 是 ， 这 种 关系 不 是 线性 的 。 当 特征 从 -2 更 改 为 -1 时 ， 目 标 值 更 改 的 预期 量 与 特 
征 从 1 更 改 为 2 时 目标 值 更 改 的 预期 量 不 同 。 稍 后 再 来 看 这 一 点 。 

















图 2-8 相 比 图 2-7 有 一 些 变化 ， 那 就 是 将 这 个 特征 和 模型 预测 值 之 间 的 关系 登 加 在 一 起 。 
接 下 来 通过 把 以 下 数据 输入 到 训练 模型 中 来 实现 这 一 点 。 


。 所 有 特征 的 值 均等 于 其 平均 值 。 
。 针对 最 重要 的 特征 ， 分 40 步 进行 线性 插值 (从 -1.5 到 3.5) ， 这 大 约 是 数据 中 该 特征 的 
缩放 范围 。 





















































图 2-8: 自 定义 线性 回归 模型 中 最 重要 的 特征 与 目标 值 和 模型 预测 值 的 对 比 


图 2-8 显示 了 线性 回归 模型 的 局 限 性 : 尽管 事实 上 该 特征 与 目标 之 间 存 在 明显 且 “ 可 模型 
七 ”的 非 线性 关系 ， 但 由 于 它 的 内 在 结构 ， 模 型 只 能 “学 习 ” 线 性 关系 。 


为 了 使 模型 学 习 特 征 与 目标 之 间 更 复杂 的 非 线性 关系 ， 必 须 构 建 一 个 比 线性 回归 更 复杂 的 
模型 。 但 是 怎么 实现 呢 ? 接 下 来 就 来 看 一 种 解决 方案 : 根据 基本 原理 构建 神经 网 络 。 


2.7 ”从 零 开始 构建 神经 网 络 


我 们 已 经 了 解 了 如 何 根 据 基本 原理 构建 和 训练 线性 回归 模型 。 如 何 将 这 种 计算 链 扩展 到 可 
以 学 习 非 线性 关系 的 更 复杂 的 模型 中 呢 ? 核心 思想 就 是 ， 首 先 执行 一 系列 线性 回归 ， 然 后 
将 结果 输入 给 一 个 非 线 性 函数 ， 最 终 执行 最 后 一 个 线性 回归 并 做 出 预测 。 事 实证 明 ， 可 以 
为 这 个 更 复杂 的 模型 计算 梯度 ， 就 像 对 线性 回归 模型 所 做 的 那样 。 






































2.7.1 步骤 1: 一 系列 线性 回归 

执行 “一 系列 线性 回归 ”是 什么 意思 呢 ? 执行 一 次 线性 回归 涉及 对 一 组 参数 进行 矩阵 
乘法 : 如 果 数 据 X 的 维度 为 [batch_size，num_features]， 那 么 将 其 乘 以 维度 为 [num_ 
features，1] 的 权重 矩阵 灭 ， 最 终 将 得 到 维度 为 [batch_size，1] 的 输出 。 对 于 批 次 中 
的 每 个 观测 值 ， 该 输出 只 是 原始 特征 的 加 权 总 和 。 要 执行 多 元 线性 回归 ， 只 需 将 输入 乘 
以 维度 为 [num_features，num_outputs] 的 权重 矩阵 ， 即 可 得 到 维度 为 [batch_size，num_ 
outputs] 的 输出 。 现 在 ， 对 于 每 个 观测 值 ， 都 有 原始 特征 的 num_outputs 个 加 权 和 。 












































可 以 将 这 些 加 权 和 视 为 “已 学 习 到 的 特征 ”， 即 原始 特征 的 组 合 。 以 预测 房价 为 例 ， 一 旦 
神经 网 络 得 到 训练 ， 它 将 试图 学 习 有 助 于 准确 预测 房价 的 特征 组 合 。 应 该 创建 多 少 个 已 学 
习 到 的 特征 呢 ? 答案 是 创建 13 个 ， 对 应 所 创建 的 13 个 原始 特征 。 
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2.7.2 步骤 2: 一 个 非 线性 函数 
接 下 来 把 每 个 加 权 和 输入 到 一 个 非 线 性 函数 中 。 我 们 要 尝试 的 第 一 个 函数 是 第 1 章 提 到 的 
sigmoid 函数 。 先 来 回顾 一 下 sigmoid 函数 ， 如 图 2-9 所 示 。 























101 


Sigmoid (Xx) 





00 











图 2-9: sigmoid 函数 ，x 的 取 值 范围 是 -5 ~ 5 


为 什么 使 用 非 线 性 函数 (sigmoid 函数 )， 而 不 是 平方 函数 (f(x) =x? ) 或 其 他 类 型 的 函数 
呢 ? 主要 涉及 以 下 几 个 原因 。 第 一 ， 我 们 希望 此 处 使 用 的 函数 是 单调 的 ， 以 便 它 “保留 ” 
有 关 输 入 数字 的 信息 。 假 设 给 定 输入 的 日 期 ， 两 次 线性 回归 得 到 的 值 分 别 为 -3 和 3， 那 么 
将 这 些 数 字 输 入 到 平方 函数 中 ， 得 到 的 值 都 是 9。 因 此 ， 在 将 这 些 数 字 输 入 平方 函数 之 后 ， 
任何 接收 它们 作为 输入 的 国 数 都 将 “丢失 ”信息 ， 即 不 知道 具体 输入 的 是 -3 还 是 3。 


第 二 ， 这 个 函数 是 非 线性 的 ， 这 种 非 线 性 将 使 神经 网 络 能 够 对 特征 与 目标 之 间 固 有 的 非 线 
性 关系 进行 建 模 。 



































第 三 ，sigmoid 函数 有 一 个 很 好 的 属性 ， 即 它 的 导数 可 以 用 函数 本 身 来 表示 : 
Oo 
Br oI- 00)) 
uU 
当 在 神经 网 络 的 后 向 传递 中 使 用 sigmoid 函数 时 ， 就 会 利用 这 一 点 。 
2.7.3 步骤 3: 另 一 个 线性 回归 
最 后 将 得 到 13 个 元 素 ， 其 中 每 个 元 素 都 是 原始 特征 的 组 合 ， 当 把 它们 输入 到 sigmoid 函数 


后 ， 取 值 都 在 0 和 1 之 间 。 同 时 ， 将 这 些 元 素 输入 到 一 个 常规 的 线性 回归 模型 中 ， 使 用 它 
们 的 方式 与 之 前 使 用 原始 特征 的 方式 相同 。 

















尝试 用 本 章 前 面 训练 标准 线性 回归 模型 的 方法 来 训练 整个 结果 函数 ， 将 数据 输入 到 模型 
中 ， 使 用 链 式 法 则 计算 增加 权重 会 增加 (或 减少 ) 损失 的 程度 ， 然 后 在 每 次 迭代 中 按照 减 
少 损失 的 方向 更 新 权重 。 随 着 时 间 的 推移 ， 在 理想 状态 下 ， 最 终 会 得 到 一 个 比 以 前 更 精确 
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的 模型 ， 而 且 该 模型 已 经 “学 到 ”了 特征 和 目标 之 间 的 内 在 非 线性 关系 。 


根据 这 一 描述 ， 你 可 能 很 难 搞 清 楚 具 体 的 细节 ， 示 意图 可 能 会 有 所 帮助 。 














2.7.4 示意 图 
至 此 ， 我 们 已 经 有 了 一 个 比较 复杂 的 模型 ， 其 计算 图 如 图 2-10 所 示 。 
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图 2-10: 将 3 个 步骤 转换 为 计算 图 


可 以 看 到 ， 这 里 和 以 前 一 样 ， 还 是 从 算 阵 乘法 和 怎 阵 加 法 开始 。 现 在 将 前 面 提 到 的 一 些 术 
语 标准 化 : 在 租 套 函数 中 应 用 这 些 运算 时 ， 用 于 转换 输入 特征 的 第 一 个 矩阵 叫 作 权重 撼 
阵 ， 第 二 个 矩阵 〈 添 加 到 每 组 结果 特征 集 的 元 素 ) 叫 作 偏差 矩阵 。 在 图 2-10 中 ， 它 们 分 别 
表示 为 Wl 和 B,。 


在 应 用 这 些 运 算 之 后 ， 我 们 将 结果 输入 到 sigmoid 函数 中 ， 然 后 用 另 一 组 权重 矩阵 和 偏差 
和 矩阵 (分 别称 为 所 和 B,) 再 次 重复 这 个 过 程 ， 从 而 得 到 最 终 的 预测 值 P。 


























另 一 种 示意 图 ? 

用 单独 的 步 又 来 表示 计算 过 程 ， 这 样 做 是 否 有 助 于 直观 地 理解 呢 ?” 这 个 问题 是 本 书 的 主 
题 。 要 完全 理解 神经 网 络 ， 必 须 看 到 多 种 表示 形式 ， 其 中 每 种 表示 形式 都 突出 了 神经 网 络 
工作 原理 的 不 同方 面 。 另 外 ， 虽 然 图 2-10 中 的 表示 形式 并 没有 针对 网 络 结构 给 出 太 多 的 信 
息 ， 但 它 确 实 清楚 地 表明 了 这 种 模型 的 训练 方法 : 在 后 向 传递 时 ， 计 算 每 个 组 成 函数 的 偏 
导数 ， 在 该 函数 的 输入 处 进行 求 值 ， 然 后 通过 将 所 有 导数 相 乘 来 计算 相对 于 每 个 权重 的 损 
失 梯度 ， 就 像 第 1 章 在 链 式 法 则 示例 中 描述 的 那样 。 


尽管 如 此 ， 还 有 另 一 种 更 标准 的 方式 来 表示 神经 网 络 。 首 先 ， 可 以 将 每 个 原始 特征 表示 为 
一 个 圆 。 由 于 有 13 个 特征 ， 因 此 需要 13 个 圆 。 然 后 ， 再 增加 13 个 圆 ， 用 于 表示 正在 执 
行 的 “线性 回归 sigmoid” 运 算 的 13 个 输出 。 此 外 ， 由 于 所 有 这 些 圆 都 是 包含 13 个 原始 
特征 的 函数 , 因此 需要 将 第 一 组 中 的 13 个 圆 分 别 连 接 到 第 二 组 中 的 所 有 圆 "。 最 后 , 因为 这 
13 个 输出 将 全 部 用 于 最 终 预 测 ， 所 以 再 画 一 个 圆 来 表示 最 终 预测 结果 ， 并 用 13 条 线 表示 
“中 间 输 出 ”已 经 连接 到 了 最 终 预 测 结果 。 图 2-11 展示 了 最 终 的 示意 图 "。 


















































































































































注 9: 有 趣 的 是 ， 可 以 只 将 输出 连接 到 某 些 原始 特征 。 这 实际 上 就 是 卷 积 神经 网 络 所 做 的 事情 。 
注 10: 其 实 ， 这 并 非 “ 最 终 ” 的 示意 图 一 一 在 前 两 层 特征 之 间 连 线 的 话 ， 共 需 169 条 线 ， 这 里 虽然 没有 全 
部 画 出 这 169 条 线 ， 但 足以 解释 这 个 概念 。 
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2-11: 较为 常见 但 作用 稍 示 的 神经 网 络 表示 法 


如 果 以 前 阅读 过 有 关 神 经 网 络 的 内 容 ， 那 么 你 不 会 对 图 2-11 所 示 的 表示 法 感到 陌生 。 尽 
管 这 种 表示 法 有 一 定 的 优势 ， 能 够 非常 清楚 地 展示 神经 网 络 的 类 型 、 层 级 数量 等 ， 但 它 既 
没有 给 出 任何 实际 计算 所 涉及 的 信息 ， 也 没有 说 明 如 何 训 练 这 样 一 个 神经 网 络 。 因 此 ， 虽 
然 这 种 示意 图 非常 重要 (在 其 他 地 方 也 会 出 现 )， 但 它 不 是 本 书 的 重点 。 我 之 所 以 在 这 里 
展示 它 ， 是 为 了 说 明 它 与 本 书 所 用 的 表示 法 有 何 联系 。 本 书 采用 盒子 表示 法 ， 每 个 盒子 代 
表 一 个 函数 ， 该 函数 定义 了 模型 在 前 向 传递 和 后 向 传递 中 的 运行 情况 ， 包 括 在 前 向 传递 
中 哪些 需要 预测 ， 在 后 向 传递 中 哪些 需要 学 习 。 第 3 章 会 介绍 如 何 将 每 个 函数 编码 为 从 
Operation 基 类 继承 的 Python 类 ， 从 而 在 示意 图 和 代码 之 间 进 行 更 直接 的 转换 。 


275 代 侈 
已 经 介绍 了 如 何 编写 简单 的 线性 回归 函数 ， 在 对 神经 网 络 进行 编码 时 ， 需 要 遵循 与 之 
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相同 的 函数 结构 ， 将 weights 作为 字典 ， 同 时 返回 损失 值 和 forward_info 字典 ， 并 在 内 部 


使 用 





图 2-10 指定 的 运算 进行 替换 : 


def forward_loss(X: ndarray， 


y: ndarray， 
weights: Dict[str, ndarray] 
) -> Tuple[Dict[str, ndarray], float]: 


计算 分 步 神经 网 络 模型 的 前 向 传递 结果 和 损失 值 。 





M1 = np.dot(X, weights['W1']) 

N1 = M1 + weights['B1'] 

01 = sigmoid(N1) 

M2 = np.dot(01, weights[ 'W2']) 

P = M2 + weights['B2'] 

loss = np.mean(np.power(y - P, 2)) 


forward_info: Dict[str, ndarray] = {} 
forward_info['X'] = X 
forward_info[ 'M1'] = M1 
forward_info['N1'] = N1 
forward_info['01'] = 01 
forward_info['M2'] = M2 
forward_info['P'] = P 
forward_info['y'] = y 


return forward_info, loss 




















尽管 现在 的 示意 图 较为 复杂 ， 但 是 我 们 仍然 分 步 完 成 了 每 一 个 运算 ， 并 将 结果 保存 在 
forward_info 中 。 


2.7.6 神经 网 络 : 后 向 传递 
在 神经 网 络 中 ， 后 向 传递 的 原理 与 在 简单 的 线性 回归 模型 中 的 原理 相同 ， 只 不 过 步骤 相对 
多 一 点 。 














1. 示意 图 
这 里 主要 涉及 2 个 步骤 。 


(1) 计算 每 个 运算 的 导数 ， 并 在 其 输入 处 进行 求 值 。 
(2) 将 结果 相 乘 。 


根据 链 式 法 则 ， 这 里 执行 上 述 步骤 依然 有 效 。 图 2-12 展示 了 需要 计算 的 所 有 偏 导数 。 

















图 2-12: 与 神经 网 络 中 的 每 个 运算 都 相关 的 偏 导 数 ， 这 些 偏 导数 将 在 后 向 传递 时 相 乘 
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就 像 在 线性 回归 模型 中 执行 的 运算 一 样 ， 这 里 要 计算 所 有 这 些 偏 导 数 ， 对 函数 进行 后 向 跟 
足 ， 然 后 将 它们 相 乘 ， 得 到 每 个 权重 的 损失 梯度 。 








2. 数学 和 代码 


表 2-1 列 出 了 图 2-12 中 的 偏 导数 及 其 对 应 的 代码 行 。 


表 2-1: 神经 网 络 偏 导 数 表 
偏 导 数 代 码 





(PD) dLdP = -(forward_info[y] - forward_info[P]) 

oa | | 

Br HB) np.ones_Like(forward_info[M2]) 

Oa 

BB WB) np.ones_like(weights[B82]) 

Oa . 

Op) dM2dW2 = np.transpose(forward_info[01], (1, 0)) 
1 

Oa 

了 (用 ) dM2d01 = np.transpose(weights[W2], (1, 0)) 

CD， 

O00 i , 

ar d01dN1 = sigmoid(forward_info[NM] x (1 - sigmoid(forward_info[N]) 
1 

Oa . 

BB) dN1idM1 = np.ones_like(forward_info[W1]) 
1 

(ole4 . 

矶 dN1dB1 = np.ones_like(weights[B81]) 
1 

Ov 

3 dMidW1 = np.transpose(forward_info[X], (1, 0)) 














在 传递 的 数据 批 次 
项 的 损失 梯度 ”。 











3. 总 损失 梯度 





Ph， 每 行 都 添加 了 相同 的 偏差 元 素 。 参 见 附 录 


用 于 计算 偏差 项 dLdB1 和 dLdB2 的 损失 梯度 表达 式 必须 沿 行进 行 求 和 ， 这 样 表明 





Ph 的 “关于 偏差 


可 以 在 本 章 的 Jupyter Notebook 中 找到 完整 的 loss_gradients 函数 。 该 函数 计算 表 2-1 中 
的 每 一 个 偏 导数 ， 并 将 它们 相 乘 来 获得 相对 于 每 个 权重 ndarray 的 损失 梯度 。 


。 dLdN2 
。 dLdB2 
。 dLdw1 
。 dLdB1 
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邮 


唯一 需要 注意 的 是 ， 如 附录 中 的 “关于 偏差 项 的 损失 梯度 ”一 节 所 述 ， 对 于 沿 轴 0 计算 的 
偏 导 数 (dLdB1 和 dLdB2) ， 这 里 对 其 表达 式 进 行 求 和 。 


我 们 终于 从 零 开 始 构建 了 第 一 个 神经 网 络 ! 接 下 来 看 一 下 实际 的 运行 情况 ， 并 判断 它 是 否 
比 线性 回归 模型 更 为 有 效 。 


2.8 训练 和 评估 第 一 个 神经 网 络 


与 本 章 已 经 构建 的 线性 回归 模型 一 样 ， 前 向 传递 和 后 向 传递 对 神经 网 络 起 到 了 相同 的 作 
用 ， 训 练 方法 和 评估 方法 也 类 似 : 对 于 数据 的 每 次 迭代 ， 通 过 前 向 传递 将 输入 传递 至 函 
数 ， 通 过 后 向 传递 计算 相对 于 权重 的 损失 梯度 ， 然 后 使 用 这 些 梯度 更 新 权重 。 实 际 上 ， 可 
以 在 训练 循环 中 使 用 以 下 代码 : 








forward_info, loss = forward_loss(X_batch, y_batch, weights) 
loss_grads = loss_gradients(forward_info, weights) 


for key in weights.keys(): 
weights[key] -= learning_rate * loss_grads[key] 


更 新 后 的 区 别 仅 在 于 forward_loss 国 数 和 loss_gradients 函数 的 内 部 以 及 weights 字典 ， 
后 者 现在 有 4 个 键 (W1、B1、W2 和 B2)， 而 不 是 2 个。 实际 上 ， 这 是 本 书 的 一 个 重要 主题 : 
即使 模型 的 架构 非常 复杂 ， 其 数学 原理 和 总 体 的 训练 过 程 也 与 简单 模型 是 一 样 的 。 














以 同样 的 方式 从 这 个 模型 中 得 到 预测 结果 : 
preds = predict(X_test, weights) 
同样 ， 区 别 只 在 于 predict 函数 的 内 部 : 


def predict(X: ndarray, 
weights: Dict[str, ndarray]) -> ndarray: 


从 分 步 神经 网 络 模 型 生成 预测 结果 。 
M1 = np.dot(X, weights['W1']) 
N1 = M1 + weights['B1'] 

01 = sigmoid(N1) 

M2 = np.dot(01, weights['W2']) 
P = M2 + weights['B2'] 


return P 

















使 用 这 些 预 测 结 果 ， 可 以 像 以 前 一 样 计算 验证 集 上 的 平均 绝对 误差 和 均 方 根 误差 ， 二 者 分 
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别 为 2.5289 和 3.6775 。 


与 之 前 的 模型 相 比 ， 该 模型 的 这 两 个 值 都 明显 较 低 ! 从 图 2-13 中 预测 值 与 目标 值 的 对 比 可 
以 看 出 类 似 的 改进 结果 。 

















20 30 
预测 值 





2-13: 神经 网 络 回归 模型 的 预测 值 与 目标 值 


推荐 逐步 跟随 本 章 的 Jupyter Notebook 运行 代码 。 


发 生 这 种 情况 的 两 个 原因 

为 什么 神经 网 络 模型 看 起 来 比 之 前 的 模型 效果 更 好 呢 ? 回想 一 下 ， 对 于 之 前 的 线性 回归 模 
型 ， 在 其 最 重要 的 特征 与 目标 之 间 存 在 非 线 性 关系 ， 但 模型 只 能 学 习 单个 特征 与 目标 之 间 
的 线性 关系 。 本 书 提 到 ， 通 过 加 入 一 个 非 线 性 函数 ， 可 以 让 模型 正确 地 学 习 特 征 和 目标 之 
间 的 非 线 性 关系 。 














下 面 通过 图 表 来 说 明 。 与 在 线性 回归 模型 中 一 样 ， 我 们 来 看 看 神经 网 络 回归 模型 中 最 重要 
的 特征 与 目标 值 和 模型 预测 值 的 关系 ， 如 图 2-14 所 示 。 像 以 前 一 样 ， 最 重要 的 特征 的 取 值 
范围 是 -1.5 ~ 3.5。 

















疝 
, 


目标 值 和 预测 值 


Sm 由 


S 








-| ® 


-1 


0 2 3 
最 重要 的 特征 (经 过 归 一 化 ) 














2-14: 神经 网 络 回归 模型 中 最 重要 的 特征 与 目标 值 和 模型 预测 值 的 对 比 
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从 图 2-14 中 可 以 看 到 以 下 两 点 : 第 一 ， 其 中 所 示 的 关系 是 非 线 性 的 ， 第 二 ， 和 我 们 所 希望 
的 一 样 ， 图 中 的 关系 更 接近 于 特征 与 目标 (由 点 表示 ) 之 间 的 关系 。 因 此 ， 将 非 线 性 函数 
添加 到 模型 中 可 以 使 它 通过 训练 迭代 更 新 权重 ， 从 而 学 习 输 入 和 输出 之 间 的 非 线性 关系 。 








以 上 就 是 神经 网 络 比 简单 的 线性 回归 模型 效果 更 好 的 第 一 个 原因 。 第 二 个 原因 是 ， 除 了 单 
个 特征 ， 神 经 网 络 还 可 以 学 习 原 始 特征 与 目标 之 间 的 组 合 关系 。 这 是 因为 神经 网 络 使 用 矩 
阵 乘法 来 创建 多 个 “已 学 习 到 的 特征 ”， 每 个 特征 都 是 所 有 原始 特征 的 组 合 ， 本 质 上 相当 
于 在 这 些 “ 已 学 习 到 的 特征 ”上 应 用 另 一 个 线性 回归 。 例 如 ， 通 过 一 些 探索 性 分 析 ， 可 以 
看 到 该 模型 所 学 到 的 13 个 原始 特征 的 两 个 最 重要 的 组 合 : 





























—4.44 x feature, —2.77 x feature, —2.07 x feature, 十 … 
4.43 x feature, —3.39 x feature, —2.39 x feature 十 … 





然后 ， 这 些 特征 将 与 所 学 到 的 其 他 11 个 特征 一 起 ， 包 含 在 神经 网 络 最 后 两 层 的 线性 回归 中 。 


学 习 单 个 特征 与 目标 之 间 的 非 线性 关系 ， 以 及 学 习 特 征 与 目标 之 间 的 组 合 关 系 ， 这 两 点 决 
定 了 在 解决 实际 问题 时 ， 神 经 网 络 通 常 比 简单 的 线性 回归 模型 更 为 有 效 。 








2.9 小 结 


本 章 介绍 了 如 何 使 用 第 1 章 中 的 构成 要 素 和 思维 模型 来 理解 、 构 建 和 训练 两 个 标准 的 机 器 
学 习 模 型 ， 从 而 解决 实际 问题 。 首 先 ， 本 章 展示 了 如 何 使 用 计算 图 来 表示 基于 经 典 统计 学 
(线性 回归 ) 的 简单 机 器 学 习 模型 。 这 种 表示 方法 能 够 计算 出 这 个 模型 相对 于 其 参数 的 损 
失 梯度 ， 从 而 通过 不 断 地 输入 训练 集中 的 数据 ， 并 治 减少 损失 的 方向 更 新 模型 参数 ， 来 训 
练 模型 。 



































接着 ， 本 章 介 绍 了 该 模型 的 局 限 性 : 只 能 学 习 特 征 和 目标 之 间 的 线性 关系 。 因 为 需要 学 习 
特征 与 目标 之 间 的 非 线 性 关系 ， 所 以 本 章 构 建 了 第 一 个 神经 网 络 。 我 们 了 解 了 如 何 从 零 开 
始 构建 神经 网 络 ， 并 且 学 习 了 如 何 使 用 与 训练 线性 回归 模型 相同 的 过 程 对 其 进行 训练 。 最 
后 ， 根 据 经 验 判断 ， 可 以 发 现 神经 网 络 的 性 能 优 于 简单 的 线性 回归 模型 ， 并 了 解 了 两 个 关 
键 原因 ， 即 神经 网 络 既 能 够 学 习 特 征 与 目标 之 间 的 非 线 性 关系 ， 也 能 够 学 习 特 征 与 目标 之 
间 的 组 合 关系 。 




















当然 ， 本 音 构 建 的 神经 网 络 仍然 相 对 简单 ， 这 是 因为 用 本 章 所 述 方式 定义 神经 网 络 是 一 个 
极 费 精力 的 过 程 。 定 义 前 向 传递 涉及 6 个 需要 独立 编码 的 运算 ， 定 义 后 向 传递 则 涉及 17 
个 。 但 是 ， 敏 锐 的 读者 会 注意 到 ， 这 些 步骤 有 很 多 重复 之 处 ， 而 且 通 过 正确 定义 抽象 ， 可 
以 从 根据 单个 运算 来 定义 模型 (如 本 章 所 述 ) 转向 根据 这 些 抽象 来 定义 模型 。 这 样 便 能 够 
构建 更 复杂 的 模型 (包括 深度 学 习 模 型 ) ， 同 时 加 深 对 这 些 模型 工作 原理 的 理解 。 这 就 是 
第 3 章 要 介绍 的 内 容 。 加 油 ! 
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从 者 开 





上 
村 


时 


AN 


度 学 习 





你 可 能 没有 意识 到 ， 自 己 现 在 掌握 的 数学 知识 和 概念 足以 回答 本 书 开 头 提出 的 有 关 深 度 学 
习 模 型 的 关键 问题 。 你 了 解 了 神经 网 络 的 工作 原理 ， 即 涉及 算 阵 乘法 、 损 失 值 以 及 与 该 损 
失 值 相关 的 偏 导 数 的 计算 ， 也 了 解 了 这 些 计算 能 起 作用 的 原因 ， 即 微 积分 的 链 式 法 则 。 这 
些 内 容 可 以 通过 遵循 基本 原则 构建 神经 网 络 来 理解 ， 也 就 是 将 它们 表示 为 一 系列 构成 要 
素 ， 其 中 每 个 构成 要 素 都 是 单独 的 数学 函数 。 人 
象 的 Python 类 ， 然 后 使 用 这 些 类 构建 深度 学 习 模 型 。 学 完 本 章 ， 你 将 真正 完成 “从 零 开 始 
深度 学 习 ”! 


本 章 还 会 根据 上 述 构成 要 素 ， 和 审 你 加 用 站 玖 种 到 全 本 光 度 学 习 模型 的 更 常规 的 描 
述 ， 而 且 你 可 能 对 这 些 描 述 并 不 陋 生 。 举 例 来 说 ， 学 完 本 章 ， 你 将 了 解 深 度 学 习 模 型 具有 
“多 个 隐藏 层 ” 的 含义 。 这 实际 上 是 理解 概念 的 本 质 : 能 够 在 总 体 描述 和 底层 细节 之 间 自 
由 转换 。 下 面 便 开 始 着 手 转换 。 前 两 章 仅 涉 及 根据 发 生 的 底层 运算 来 描述 模型 ， 本 章 将 把 
对 模型 的 描述 映射 到 如 “ 层 ”等 常见 的 高 级 概念 ， 这 些 概念 最 终 有 助 于 轻松 地 描述 更 复杂 
的 模型 。 


3.1 定义 深度 学 习 


深度 学 习 模 型 是 什么 呢 ? 前 文 将 “模型 ”定义 为 由 计算 图 表示 的 数学 函数 。 这 种 模型 的 目 
的 是 将 来 自 某 个 数据 集 且 具有 共同 特征 的 输入 〈 例 如 代表 房屋 特征 的 输入 ) 映射 到 从 相关 
分 布 中 提取 的 输出 (例如 房屋 的 价格 )。 在 这 一 过 程 中 可 以 发 现 ， 如 果 将 模型 定义 为 一 个 
函数 ， 其 中 包含 一 些 参 数 (在 该 函数 的 某 些 运算 中 作为 输入 )， 则 可 以 通过 以 下 步骤 对 其 
进行 “ 拟 合 “， 从 而 以 最 佳 的 方式 描述 数据 。 
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1. 反复 给 模型 输入 观测 值 ， 跟 踪 在 前 向 传递 过 程 中 计算 所 得 的 量 。 

2. 计算 损失 值 ， 它 表示 模型 的 预测 值 与 目标 值 之 间 的 差距 。 

3. 使 用 在 前 向 传递 过 程 中 计算 所 得 的 量 和 第 1 章 得 出 的 数学 链 式 法 则 ， 计 算 每 个 输入 参数 
对 该 损失 值 造成 的 最 终 影响 。 

4. 更 新 参数 值 。 这 样 一 来 ， 当 下 一 组 观测 值 通过 模型 时 ， 便 有 机 会 减少 损失 。 


回顾 第 2 章 ， 我 们 首先 构建 了 仅 包 含 一 系列 线性 运算 的 模型 ， 将 特征 转换 为 目标 (结果 
证 明 ， 这 相当 于 构建 传统 的 线性 回归 模型 )。 但 是 ， 该 模型 具有 明显 的 局 限 性 : 即使 能 够 
“完美 地 拟 合 "， 它 也 只 能 表示 特征 和 目标 之 间 的 线性 关系 。 


然后 ， 我 们 定义 了 一 个 函数 结构 ， 该 函数 结构 首先 应 用 上 述 线性 运算 ， 接 着 应 用 非 线 性 运 
算 (sigmoid 函数 ) ， 最 后 应 用 一 组 线性 运算 。 可 以 看 到 ， 通 过 这 种 修改 ， 模 型 学 到 的 输入 
和 输出 之 间 的 关系 更 接近 真实 的 非 线性 关系 。 同 时 ， 这 种 模型 具有 额外 的 优势 ， 那 就 是 可 
以 学 习 输 入 特征 与 目标 之 间 的 组 合 关系 。 




















像 这 样 的 模型 和 深度 学 习 模 型 之 间 有 什么 联系 呢 ? 尝试 理解 一 个 定义 : 深度 学 习 模 型 表示 
为 一 系列 运算 ， 这 些 运算 至 少 涉及 两 个 不 连续 的 非 线性 函数 。 


要 注意 的 是 ， 由 于 深度 学 习 模 型 只 是 一 系列 运算 ， 因 此 其 训练 过 程 实际 上 与 简单 模型 的 
训练 过 程 相 同 。 毕 竞 ， 训 练 过 程 之 所 以 有 效 ， 就 是 因为 模型 相对 于 其 输入 具有 可 微 性 。 如 
第 1 章 所 述 ， 可 微 函 数 的 组 合 也 是 可 微 的 。 因 此 ， 只 要 组 成 函数 的 各 个 运算 是 可 微 的 ， 整 
个 函数 就 是 可 微 的 ， 就 可 以 用 上 述 4 个 步骤 来 训练 模型 。 








但 是 ， 目 前 训练 这 些 模型 的 方法 实际 上 是 通过 手动 编码 前 向 传递 和 后 向 传递 ， 然 后 将 适当 
的 量 相 乘 来 计算 导数 。 第 2 章 中 的 简单 神经 网 络 模型 共 需 要 17 步 ， 由 于 这 是 在 低层 次 上 
描述 模型 ， 因 此 尚 不 清楚 如 何 提高 该 模型 的 复杂 度 ， 甚 至 不 知道 如 何 实现 简单 的 改变 ， 比 
如 用 另 一 个 非 线性 国 数 替换 sigmoid 函数 。 为 了 能 够 构建 任意 “深度 ”和 “复杂 度 ” 的 深 
度 学 习 模 型 ， 在 这 17 个 步骤 中 ， 必 须 孝 虑 创建 可 重用 组 件 。 这 些 可 重用 组 件 的 级 别 要 高 
于 单个 和 运算， 这样 可 以 相互 进行 替换 ， 从 而 构建 不 同 的 模型 。 神 经 网 络 往往 被 描述 为 由 
“ 层 ”“ 神 经 元 ”等 构成 。 为 了 朝 着 正确 的 方向 创建 抽象 ， 可 以 尝试 把 运算 与 “ 层 ” “神经 
元 ”等 传统 描述 联系 起 来 。 


第 一 步 必须 创建 一 个 抽象 来 表示 目前 正在 使 用 的 各 个 运算 ， 而 不 是 继续 重复 编写 相同 的 矩 
阵 乘法 和 加 法 运算 。 


3.2 ”神经 网 络 的 构成 要 素 : 运算 
我 们 用 0peration 类 代表 神经 网 络 中 的 组 成 函数 。 根 据 此 类 函数 在 模型 中 的 使 用 方式 ， 它 应 


该 具有 forward 方法 和 backward 方法 ， 每 个 方法 都 接受 一 个 ndarray 作为 输入 ， 并 输出 一 
个 ndarray。 某 些 运算 (例如 算 阵 乘法 ) 似乎 有 另 一 种 特殊 的 输入 ， 即 代表 参数 的 ndarray。 
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在 0peration 类 或 继承 它 的 其 他 类 中 ， 可 以 把 params 作为 另 一 个 实例 变量 。 


可 以 将 0peration 类 分 为 两 种 类 型 : 某 些 operation 类 〈 例 如 矩阵 乘法 ) 返回 ndarray 作为 
输出 ， 其 形状 与 作为 输入 的 ndarray 不 同 ， 某 些 0peration 类 (例如 sigmoid 函数 ) 则 仅 将 
某 个 函数 应 用 于 输入 ndarray 中 的 所 有 元 素 。 对 于 在 运算 之 间 传 递 的 ndarray 的 形状 ， 其 
遵循 怎样 的 “一 般 规 则 ” 呢 ? 可 以 考虑 在 0peration 类 中 传递 的 ndarray: 每 个 0peration 
类 将 在 前 向 传递 中 向 前 发 送 输出 ， 并 在 后 向 传递 中 接收 “输出 梯度 " ， 该 梯度 表示 相对 于 
operation 类 输出 的 每 个 元 素 的 损失 偏 导 数 ， 该 数值 由 组 成 神经 网 络 的 其 他 0peration 类 计 
算得 出 。 同 样 ， 在 后 向 传递 中 ， 每 个 0peration 类 将 向 后 发 送 “ 输 入 梯度 ”， 该 梯度 表示 相 
对 于 输入 的 每 个 元 素 的 损失 偏 导 数 。 


上 述 事 实 对 0peration 类 的 运作 设置 了 一 些 重要 限制 ， 有 助 于 确保 正确 地 计算 梯度 ， 甚 中 
主要 涉及 以 下 两 个 方面 。 


1. 输出 梯度 ndarray 的 形状 必须 与 输出 的 形状 相 匹配 。 
2.， 对 于 0peration 类 在 后 向 传递 期 间 向 后 发 送 的 输入 梯度 ， 其 形状 必须 与 输入 的 形状 相 匹 配 。 


























当 用 示意 图 解释 时 ， 这 一 切 都 会 变 得 更 清楚 。 





























3.2.1 示意 
在 图 3-1 中 ， 运 算 0 从 运算 N 中 接收 输入 并 将 输出 传递 给 运算 P。 
,人 梯 度 图 右 向 箭头 = 前 向 传递 
本 本 图 左 向 箭头 = 后 向 传递 
中 入 四 输入 和 输入 梯度 、 输 出 
---- ---- 和 输出 梯度 的 形状 必须 
彼此 匹配 











3-1: 具有 输入 和 输出 的 运算 
图 3-2 展示 了 运算 带 有 参数 的 情况 








输入 梯度 本 | 出 梯度 右 向 箭头 = 前 向 传递 


全 0 左 向 箭头 = 后 向 传递 
… b:: 输入 和 输入 梯度 、 输 
- ---- 出 和 输出 梯度 的 形状 


输 Ee 输出 必须 彼此 匹配 





有 

1 

v 

W-grad 

在 前 向 传递 计算 中 的 参数 在 后 向 传递 中 计算 的 参数 梯度 


三 ---- 

















3-2: 具有 输入 和 输出 以 及 参数 的 运算 
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3.2.2 ”代码 


根据 前 面 的 介绍 ， 可 以 为 神经 网 络 编写 基本 的 构成 要 素 ， 即 0peration 类 ， 如 下 所 示 : 


class Operation(object): 


Operation 基 类 。 


def 


def 


def 


def 


def 


对 于 定义 的 任意 0peration 类 ， 都 必须 实现 -output 方法 和 _input_grad 方法 。 之 所 以 这 档 


__init__(self): 
pass 


forward(self, input_: ndarray): 


将 输入 存储 在 seLf.input_ 实 例 变量 中 ， 调 用 seLf._output 国 数 。 


111 





seLf .input_ = input_ 
seLf .output = seLf._output() 


return seLf.output 


backward(seLf，output_ grad: ndarray) -> ndarray: 


和 


调用 seLf._input_grad 国 数 ， 检 查 形状 是 否 匹 配 。 


六 六 ! 


assert_same_shape(self.output, output_grad) 
self.input grad = self. input_grad(output_grad) 


assert_same_shape(self.input_ , self.input_grad) 
return self.input_grad 


_output(self) -> ndarray: 


六 和 


必须 为 每 个 0peration 类 都 定义 _output 方 法 。 


111 


raise NotImplementedError() 


_input_grad(self, output_grad: ndarray) -> ndarray: 


| 


必须 为 每 个 0peration 类 都 定义 _input_grad 方 法 。 


111 


raise NotImplementedError() 


Ht 





命名 ， 主 要 是 为 了 体现 它们 计算 的 量 。 











像 上 面 这 样 定 义 基 类 主要 是 出 于 教学 目的 : 请 记 住 ， 深 度 学 习 中 的 所 有 0peration 
类 都 要 向 前 发 送 输出 和 向 后 发 送 梯度 。 另 外 ，0peration 类 在 前 向 传递 中 接收 的 
形状 必须 与 在 后 向 传递 中 发 送 的 形状 相 匹配 ， 反 之 亦 然 。 
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本 章 在 后 面 将 定义 矩阵 乘法 等 具体 的 0peration 类 。 首 先 来 定义 另 一 个 类 ， 它 继承 Operation 


类 ， 并 且 专 门 用 于 涉及 参数 的 运算 : 


class ParamOperation(Operation): 


带 有 参数 的 0peration 类 。 





def _ init__(self, param: ndarray) -> ndarray: 


高 第 


Param0peration 方 法 。 


super().__init__() 
self.param = param 


def backward(self, output grad: ndarray) -> ndarray: 


调用 self._input_grad 函 数 和 self._param_grad 函 数 ， 检 查 形状 是 否 匹配 。 





i 





assert_same_shape(self.output, output_grad) 


seLf .input_grad 
seLf .param_grad 


self. input_grad(output_grad) 
self._param_grad(output_grad) 


assert_same_shape(self.input_ , self.input_grad) 
assert_same_shape(self.param, self.param_grad) 


return self.input_grad 


def param grad(self, output_ grad: ndarray) -> ndarray: 


和 


Param0peration 的 每 个 子 类 都 必须 实现 _param_grad 方 法 。 


raise NotImplementedError() 


与 Operation 基 类 类 似 ， 除 了 _output 方法 和 _input_grad 方法 ， 单 个 Param0peration 类 


还 必须 定义 -param_grad 方法 。 


至 此 ， 我 们 已 经 完成 了 对 0peration 类 的 定义 ， 但 在 定义 神经 网 络 之 前 ， 还 要 定义 另 一 个 


构成 要 素 。 


3.3 神经 网 络 的 构成 要 素 : 层 














就 Operation 类 而 言 ， 层 是 一 系列 线性 运算 外 加 后 再 


跟着 的 一 个 非 线性 运算 。 举 例 来 说 ， 


第 2 章 中 的 神经 网 络 共 有 5 个 运算 : 2 个 线性 运算 (加 权 乘 法 和 偏差 项 加 法 )、1 个 非 线性 
运算 (sigmoid 函数 )， 以 及 2 个 线性 运算 。 在 这 种 情况 下 ， 可 以 说 前 3 个 运算 (包括 非 线 
性 运算 在 内 ) 构成 第 1 层 ， 后 2 个 运算 构成 第 2 层 。 另 外 ， 输 入 本 身 代 表 一 种 特殊 的 层 ， 
称 为 输入 层 。( 就 层 的 编号 而 言 ， 由 于 该 层 不 计算 在 内 ， 因 此 可 以 将 其 视 为 第 0 层 。) 同 
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理 ， 最 后 一 层 称 为 输出 层 。 中 间 层 (根据 编号 为 第 1 层 ) 也 有 一 个 重要 的 名 称 ， 它 被 称 为 
隐藏 层 ， 这 是 因为 它 的 值 在 训练 过 程 中 通常 是 隐藏 的 。 














从 层 的 上 述 定义 来 看 ， 输 出 层 是 一 个 例外 一 一 它 无 须 应 用 非 线 性 运算 。 这 仅仅 是 因为 ， 我 
们 经 常 希望 输出 层 的 取 值 范围 是 -wo ~ om (或 至 少 是 0 ~ %)， 而 非 线 性 函数 通常 将 其 输出 
“压缩 ”到 某 个 更 小 的 取 值 范围 。 例 如 ，sigmoid 函数 将 其 输出 的 取 值 范围 压缩 为 0 ~ 1。 























示意 图 
为 了 使 “ 层 ” 的 概念 更 加 清晰 ， 图 3-3 将 第 2 章 中 的 神经 网 络 示意 图 划分 为 3 层 。 























,一 ~ 输入 层 
Xn 


~ 一 一 一 一 一 一 一 一 一 一 一 ~ 






( 越 小 越 好 ) 


< 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


一 一 一 一 一 一 一 一 一 一 一 一 











图 3-3: 将 神经 网 络 示意 图 中 的 运算 分 为 若干 层 





可 以 看 到 ， 输 入 就 代表 输入 层 ， 其 后 的 3 个 运算 (以 sigmoid 函数 结尾 ) 代表 第 1 层 ， 最 
后 的 两 个 运算 则 代表 第 2 层 。 

















当然 ， 这 样 表示 起 来 很 麻烦 。 对 不 止 两 层 的 神经 网 络 而 言 ， 将 其 表示 为 一 系列 单独 的 运 
算 ， 同 时 清楚 地 显示 其 工作 方式 以 及 训练 方式 ， 这 样 做 过 于 细 化 了 。 这 就 是 要 用 “ 层 ” 来 
表示 神经 网 络 的 原因 ， 如 图 3-4 所 示 。 






































0 0 
0 0 
W : W, :; 0 
X 一 > B, a 一 六 攻 一 | ， :| 一 
站 9 损失 值 : 
最 后 一 层 圆 的 总 和 
隐藏 层 偷 出 层 
其 中 的 圆 表示 其 中 的 圆 表 示 
激活 值 预测 值 




















图 3-4: 用 “ 层 ” 来 表示 神经 网 络 


与 脑 神经 网 络 的 联系 

现在 ,将 上 述 内 容 与 你 可 能 听 说 过 的 一 个 概念 联系 起 来 : 神经 网 络 的 每 一 层 都 具有 一 定数 
量 的 神经 元 (neuron)， 这 些 神经 元 的 数量 等 于 表示 该 层 输出 中 每 个 观测 值 向 量 的 维 数 。 因 
此 ， 可 以 认为 先前 示例 中 的 神经 网 络 在 输入 层 具 有 13 个 神经 元 ， 在 隐藏 层 同 样 具有 13 个 
神经 元 ， 但 在 输出 层 具 有 1 个 神经 元 。 
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大 脑 中 的 神经 元 具有 接收 来 自 许多 其 他 神经 元 输入 的 特性 ， 并 且 只 有 当 所 接收 的 信号 累积 达 
到 一 定 的 “激活 能 量 ” 时 ， 它 们 才 会 发 送信 号 。 人 工 神经 网 络 中 的 神经 元 具有 类 似 的 属性 : 
它们 确实 根据 输入 来 向 前 发 送信 号 ， 但 是 输入 只 通过 一 个 非 线 性 函数 转换 成 输出 。 该 非 线性 
函数 称 为 激活 函数 (activation fonction) ， 由 此 产生 的 值 称 为 该 层 的 激活 值 (activation) '。 








既然 已 经 定义 了 层 ， 现 在 就 可 以 陈述 更 为 传统 的 深度 学 习 定 义 : 深度 学 习 模 型 是 具有 多 个 
隐藏 层 的 神经 网 络 。 

可 以 看 到 ， 这 与 前 文 给 出 的 仅 使 用 运算 描述 的 定义 一 致 ， 因 为 一 个 层 就 是 一 系列 运算 ， 其 
中 最 后 一 个 是 非 线 性 运算 。 








既然 已 经 为 Operation 类 定义 了 基 类 ， 那 么 接 下 来 看 一 下 它 如 何 充 当 模型 的 基本 构成 要 素 。 


3.4 在 构成 要 素 之 上 构建 新 的 要 素 


为 了 使 第 2 章 中 的 模型 生效 ， 需 要 实现 哪些 0peration 类 呢 ? 根据 分 步 实 现 该 神经 网 络 的 
经 验 ， 可 以 判断 存在 以 下 3 种 bperation 类 。 


。 输入 与 参数 矩阵 的 矩阵 乘法 。 
。 增加 一 个 偏差 项 。 
。 sigmoid 激活 函数 。 





下 面 从 第 1 种 0peration 类 开始 实现 ， 我 们 将 它 命名 为 WeightMultiply: 











class WeightMultiply(ParamOperation): 


神经 网 络 的 权重 乘法 运算 。 


def _ init__(self, W: ndarray): 





使 用 seLf.param = W 初 始 化 0peration 类 。 
super().__init__(W) 
def output(self) -> ndarray: 


计算 输出 。 





return np.dot(self.input_ , self.param) 
def input _ grad(self, output_grad: ndarray) -> ndarray: 


计算 输入 梯度 。 





注 1: 在 所 有 激活 函数 中 ，sigmoid 函数 (将 输入 映射 到 0 和 1 之 间 ) 最 大 限度 地 模拟 了 大 脑 神 经 元 的 实际 
流 活 机 制 ， 但 一 般 来 说 ， 激 活 函 数 可 以 是 任何 单调 的 非 线 性 函数 。 
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def 


return np.dot(output_grad，np.transpose(seLf.param，(1，0))) 


_param_grad(seLf，output_grad: ndarray) -> ndarray: 


WW 


计算 参数 梯度 。 


六 着， 


return np.dot(np.transpose(self.input_, (1, 0)), output_grad) 





这 里 只 需 使 用 第 1 章 提 到 的 计算 规则 对 两 部 分 进行 编码 :第 一 ， 前 向 传递 上 的 矩阵 乘法 ， 
第 二 ， 后 向 传递 上 的 输入 和 参数 的 “向 后 发 送 梯度 ”的 规则 。 这 部 分 稍 后 将 进行 展示 ， 现 








在 可 以 把 它 用 作 一 种 构成 要 素 ， 并 简单 地 将 其 插入 到 Layer 类 中 。 





接 下 来 实现 加 法 运算 ， 可 以 称 之 为 BtasAdd: 


class BiasAdd(ParamOperation): 


1 


增加 偏差 项 。 
def _ init__(self, 


def 


def 


def 


B: ndarray): 


让 :和 


使 用 self.param = B 初 始 化 Operation 类 。 检 查 形状 。 


rn 


assert B.shape[0] == 1 
super().__init__(B) 


_output(self) -> ndarray: 


计算 输出 。 





return self.input_ + self.param 


_input_grad(self, output_ grad: ndarray) -> ndarray: 


这 


计算 输入 梯度 。 


开标 


return np.ones_Like(seLf .input_) * output_grad 


_param_grad(seLf，output_grad: ndarray) -> ndarray: 


计算 参数 梯度 。 


六 


param_grad = np.ones_like(self.param) * output_grad 
return np.sum(param_grad, axis=0).reshape(1, param_grad.shape[1]) 


最 后 ， 定 义 Sigmoid 类 (sigmoid 激活 函数 ) : 


class Sigmoid(Operation): 


sigmoid 激 活 函 数 。 
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过 





在 精确 定义 了 这 些 0peration 类 后 ， 下 


def _ init__(self) -> None: 
"不 做 处 理 。'"' 


super().__init__() 





def output(self) -> ndarray: 


计算 输出 。 





return 1.0/(1.0+np.exp(-1.0 * self.input_)) 
def input _ grad(self, output_ grad: ndarray) -> ndarray: 
sigmoid backward = seLf.output * (1.0 - self.output) 


input_grad = sigmoid backward * output _ grad 
return input_grad 


这 里 仅 实现 了 第 2 章 描 述 的 数学 函数 。 





对 于 Sigmoid 和 Param0peration， 在 后 向 传递 步骤 中 的 计算 为 : input_grad = 
< 某 一 项 > * output_grad。 我 们 在 该 步骤 中 应 用 链 式 法 则 。 正 如 第 1 章 所 述 ， 
当 涉 及 和 矩阵 乘法 时 ， 针 对 WeightMultiply 的 相应 规则 与 链 式 法 则 是 类 似 的 。 











外 可 以 将 它们 用 作 定 义 Layer 类 的 构成 要 素 。 











3.4.1 层 的 蓝图 
得 益 于 0peration 类 的 编写 方式 ，Layer 类 编写 起 来 很 容易 ， 其 中 涉及 下 面 两 个 步骤 。 


]， 





就 像 本 书 一 直 在 示意 图 中 所 展示 的 那样 ，forward 方法 和 backward 方法 只 涉及 通过 一 系 

列 Operation 类 连续 向 前 发 送 输入 。 这 是 有 关 Layer 类 工作 机 制 的 最 重要 的 事实 。 代 码 

的 其 余部 分 是 对 此 机 制 的 包装 ， 主 要 涉及 以 下 操作 。 

(1) 在 _setup_layer 国 数 中 定义 一 系列 0peration 类 ， 并 在 这 些 0peration 类 中 初始 化 和 
存储 参数 (_setup_layer 函数 也 将 执行 该 操作 )。 

(2) 在 forward 方法 中 将 正确 的 值 存储 在 self.input_ 和 self.output 中 。 

(3) 在 backward 方法 中 执行 正确 的 断言 检查 。 








.，_params 函数 和 _param_grads 函数 仅 从 层 内 的 Param0peration 中 提取 参数 及 其 梯度 ( 相 


对 于 损失 )。 


整个 Layer 类 看 起 来 像 这 样 : 


class Layer(object): 


神经 网 络 中 的 一 个 神经 元 层 。 
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def _ init__(self, 
neurons: int): 


写生 肖 


神经 元 的 数量 大 致 对 应 该 层 的 “宽度 ”。 


旺 而 请 





seLf.neurons = neurons 

self.first = True 

seLf .params: List[ndarray] = [] 

seLf .param_grads: List[ndarray] = [] 
seLf .operations: List[Operation] = [] 


def setup_layer(self, num in: int) -> None: 


必须 为 每 一 层 都 实现 _setup_Layer 国 数 。 


Lm 





raise NotImplementedError() 


def forward(self, input_: ndarray) -> ndarray: 


通过 一 系列 Operation 类 将 输入 向 前 传递 。 


mn 


if self.first: 
self._setup_layer(input ) 
self.first = False 
seLf .input_ = input_ 
for operation in self.operations: 
input_ = operation.forward(input_ ) 
seLf .output = input_ 
return self.output 
def backward(self, output_ grad: ndarray) -> ndarray: 


通过 一 系列 0peration 类 将 output_grad 向 后 传递 ， 检 查 形状 。 


有 和 市 汪 


assert_same_shape(self.output, output_grad) 


for operation in reversed(self.operations): 
output_ grad = operation.backward(output_grad) 


input_grad = output_grad 
self._param_grads() 
return input_grad 

def _param_ grads(self) -> ndarray: 


1101 


从 层 的 运算 中 提取 参数 梯度 。 
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seLf.param_grads = [] 
for operation in self.operations: 
if issubcLass(operation.__cLass__，Param0peration) : 
seLf .param_grads.append(operation.param_grad) 


de 


=h 


_params(self) -> ndarray: 





从 层 的 运算 中 提取 参数 。 


self.params = [] 
for operation in self.operations: 
if issubclass(operation.__class__, ParamOperation): 
self .params.append(operation.param) 














就 像 在 第 2 章 中 先 定义 0peration 类 再 针对 神经 网 络 具体 实现 一 样 ， 接 下 来 为 神经 网 络 实 
现 Layer 类 。 





3.4.2 ”稠密 层 
我 们 把 0peration 类 称 为 eightMultiply 和 BiasAdd 等 。 对 于 Layer 类 ， 应 该 如 何 称 呼 


呢 ? LinearNonLinear 层 ? 








神经 元 层 的 一 个 关键 特征 是 ， 每 个 输出 神经 元 都 是 所 有 输入 神经 元 的 函数 。 这 就 是 矩阵 乘 
法 的 实际 作用 : 如 果 和 矩阵 有 尾行 和 mu 列 ， 那 么 乘法 本 身 就 是 在 计算 wu 个 新 特征 ， 每 一 
个 新 特征 都 是 所 有 m 个 输入 特征 的 加 权 线性 组 合 *“。 因 此 ,这 些 层 通常 称 为 全 连接 层 (fully 
connected layer)。 在 流行 的 Keras 库 中 ， 它 们 也 被 称 为 Dense 层 ， 这 是 一 个 含义 相同 但 更 
简洁 的 术语 。 
在 了 解 它 的 名 称 及 其 由 来 之 后 ， 下 面 根据 已 经 定义 的 运算 来 定义 Dense 层 。 正 如 你 将 看 到 
的 ， 基 于 定义 Layer 基 类 的 方法 ， 这 里 只 需 将 上 一 节 中 定义 的 0peration 类 作为 一 个 列表 
放 在 _setup_layer 函数 中 即 可 。 





























class Dense(Layer ) : 


从 Layer 类 继承 全 连接 层 。 
def _ init__(self, 
neurons: int, 
activation: Operation = Sigmoid()) -> None: 


在 初始 化 时 需要 一 个 激活 函数 。 


字 重光 


super().__init__(neurons) 





| 








一 小 


[a 








注 2: 正如 将 在 第 5 章 中 看 到 的 ， 并 非 所 有 层 都 是 这 样 。 举 例 来 说 ， 在 卷 积 层 中 ， 每 个 输出 特征 都 
部 分 输入 特征 的 组 合 。 








SS 


和 
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self.activation = activation 


def setup_layer(self, input_: ndarray) -> None: 


111 





定义 全 连接 层 的 运算 。 


111 


if seLf .seed : 
np.random. seed(self. seed) 


self.params = [] 


# 权重 


self.params.append(np.random.randn(input_.shape[1], self.neurons)) 


# 偏差 


self.params.append(np.random.randn(1, self.neurons)) 
self.operations = [WeightMultiply(self.params[0]), 
BiasAdd(self .params[1]), 
self.activation] 
return None 
注意 ， 这 里 将 默认 激活 设置 为 线性 激活 ， 这 实际 上 意味 着 不 应 用 任何 激活 ， 
数 应 用 于 层 的 输出 。 





只 是 将 同一 函 





现在 ， 应 该 在 operation 类 和 Layer 类 上 添加 哪些 构成 要 素 呢 ? 为 了 训练 模型 ， 需 要 一 个 
NeuraLNetwork 类 来 包装 Layer 类 ， 就 像 Layer 类 包装 0peration 类 一 样 。 由 于 目前 还 不 请 
楚 是 否 需 要 更 多 的 类 ， 因 此 我 们 将 次 入 研究 并 构建 NeuralNetwork 类 ， 并 在 构建 过 程 中 找 

















出 所 需要 的 其 他 类 。 


3.5 NeuraLNetwork 类 和 其 他 类 


总 体 而 言 ，NeuratlNetwork 类 应 该 能 够 从 数据 中 学 习 ， 更 准确 地 说 ， 它 应 该 


“观测 值 ”( 习 和 “正确 答案 ”(y) 的 批 数据 ， 并 学 习 钱 和 y 之 间 的 关系 。 
一 个 函数 ， 该 函数 可 以 将 转换 为 非常 接近 y 的 预测 值 prediction。 








基于 已 经 定义 的 Layer 类 和 0peration 类 ， 这 种 学 习 将 如 何 进行 呢 ? 回顾 第 





这 里 将 实现 以 下 3 项 内 容 。 


够 获取 表示 


合 b 
HE 
这 意味 着 学 习 


2 章 中 的 模型 ， 


1. 神经 网 络 应 获取 XX， 将 其 连续 向 前 传递 给 每 个 Layer 类 (实际 上 是 将 X 传 递 给 许多 








Operation 类 的 便捷 包装 器 )， 此 时 的 prediction 将 代表 结果 。 


2. 将 prediction 与 值 y 进 行 比较 ， 来 计算 损失 并 生成 “损失 梯度 "， 也 就 是 损失 相对 于 神 





经 网 络 最 后 一 层 (生成 prediction 的 层 ) 中 的 每 个 元 素 的 偏 导数 。 


3. 使 用 计算 “参数 梯度 ”( 损 失 相 对 于 每 个 参数 的 偏 导 数 ) 的 方式 ， 将 该 损失 梯度 依次 向 


后 传递 给 各 层 ， 并 将 其 存储 在 相应 的 0peration 类 中 。 
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3.5.1 示意 
3-5 展示 了 以 Layer 类 的 形式 描述 神经 网 络 。 





反 向 传播 
损失 梯度 
xk” 玉 
工 一 一 — 一 下 — 一 铸 。 预测 值 一 损失 值 瑟 也 
个 类 值 
到 
-一 一 一 —— 
输入 层 隐藏 层 输出 层 

















图 3-5: 反 向 传播 (以 层 的 概念 展示 ) 


3.5.2 ”代码 


应 该 如 何 实 现 呢 ? 当 神 经 网 络 处 理 Layer 类 时 ， 最 终 采 用 的 方式 要 与 Layer 类 处 理 
Operation 类 的 方式 相同 。 例 如 ，forward 方法 接受 不 作为 输入 ， 并 简单 地 执行 如 下 操作 : 





for layer in seLf.Layers : 
X = Layer.forward(X) 


return X 











类 似 地 ，backward 方法 也 可 以 接受 一 个 参数 (暂且 将 其 称 为 grad)， 然 后 执行 如 下 操作 : 





for Layer in reversed(seLf.Layers) : 
grad = Layer.backward(grad) 


grad 必须 来 自 损失 函数 ， 这 种 特殊 的 函数 同时 接受 y 和 prediction， 然 后 执行 如 下 操作 。 





1. 计算 一 个 数字 ， 表 示 对 得 出 该 prediction 的 神经 网 络 的 “惩罚 ”。 
2. 对 于 损失 的 每 个 prediction， 向 后 发 送 梯度 。 这 个 梯度 将 作为 该 神经 网 络 的 backward 
方法 的 输入 ， 由 最 后 一 个 Layer 类 接收 。 





在 第 2 章 的 示例 中 ， 损 失 函 数 是 prediction 与 目标 值 之 间 的 平方 差 ， 可 以 据 此 计算 
prediction 相对 于 损失 的 梯度 。 


这 里 应 该 如 何 实现 呢 ? “损失 ”这 个 概念 似乎 很 重要 ， 值 得 拥有 自己 的 类 。 此 外 ， 这 个 
类 的 实现 类 似 于 Layer 类 ， 但 有 一 个 例外 ， 那 就 是 forward 方法 将 生成 一 个 实际 的 数字 
(float 类 型 ) 作为 损失 ， 而 不 是 生成 要 发 送 到 下 一 个 Layer 类 的 ndarray。 接 下 来 看 看 如 
何 正式 实现 。 





3.5.3 ”Loss 类 


类 似 于 Layer 类 ，Loss 类 的 forward 方法 和 backward 方法 将 检查 相应 ndarray 的 形状 是 
否 相 同 ， 并 定义 _output 方法 和 _input_grad 方法 ，Loss 类 的 所 有 子 类 都 必须 实现 这 两 个 





方法 : 


class Loss(object): 


神经 网 络 的 "损失 "。 


def 


def 


def 


def 


def 


__init__(self): 
' ”不 做 处 理 。 ' ” 


pass 





forward(self, prediction: ndarray, target: ndarray) -> float: 


i 


计算 实际 的 损失 值 。 


让 下 


assert_same_shape(prediction, target) 


self.prediction = prediction 
self.target = target 


loss_value = self. output() 
return loss_value 


backward(self) -> ndarray: 


相思 


计算 损失 值 相 对 于 损失 函数 输入 的 梯度 。 


rn 


self.input grad = self. input_grad() 
assert_same_shape(self.prediction, self.input_grad) 
return self.input_grad 


_output(self) -> float: 


111 


Loss 类 的 每 个 子 类 都 必须 实现 _output 方 法 。 


raise NotImplementedError() 


_input_grad(self) -> ndarray: 


rn 


Loss 类 的 每 个 子 类 都 必须 实现 _input_grad 方 法 。 


和 


raise NotImplementedError() 


与 Operation 类 一 样 ， 这 里 检查 损失 后 向 传递 的 梯度 与 从 神经 网 络 最 后 一 层 输入 的 prediction 
形状 是 否 相 同 : 
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class MeanSquaredError(Loss) : 


def _ init__(self) 
“' 不 做 处 理 。'"， 


super().__init__() 





def output(self) -> float: 
计算 每 个 观测 值 的 平方 误差 损失 。 


loss = 
np.sum(np.power(self.prediction - self.target, 2)) / 
self.prediction.shape[0] 


return loss 


def _input_grad(self) -> ndarray: 


在 MSE 损 失 函 数 中 ， 计 算 相 对 于 输入 的 损失 梯度 。 


1 








return 2.0 * (self.prediction - self.target) / self.prediction.shape[0] 


这 里 对 均 方 误差 损失 公式 的 前 向 规则 和 后 向 规则 简单 地 进行 了 编码 。 


这 








是 需要 从 零 开 始 构 建 深 度 学 习 模 型 的 最 后 一 个 关键 构成 要 素 。 接 下 来 回顾 所 有 构成 要 素 





以 及 它们 的 组 合 方式 ， 然 后 正式 构建 模型 ! 


3.6 ”从 零 开始 构建 深度 学 习 模 型 

我 们 将 以 图 3-5 为 指导 ， 来 构建 NeuralNetwork 类 ， 并 最 终 使 用 该 类 来 定义 和 训练 深度 学 
习 模 型 。 在 深入 研究 并 开始 编码 之 前 ， 先 来 精确 地 描述 这 样 一 个 类 ， 以 及 它 如 何 与 前 面 定 
义 的 0peration 类 、Layer 类 和 Loss 类 进行 交互 。 


I 











NeuralNetwork 类 将 拥有 一 系列 Layer 类 作为 属性 。 与 前 面 定义 的 一 样 ， 这 些 Layer 类 
将 具有 forward 方法 和 backward 方法 。 这 些 方法 接受 并 返回 ndarray。 

在 _setup_layer 函数 中 ， 每 个 Layer 类 都 将 在 该 层 的 operations 属性 中 保存 一 个 由 
Operation 类 组 成 的 列表 。 




















. 这些 0peration 类 与 Layer 类 本 身 一 样 ， 具 有 forward 方法 和 backward 方法 ， 这 些 方法 


接受 ndarray 作为 参数 ， 并 返回 ndarray 作为 输出 。 

在 每 个 Operation 类 中 ，backward 方法 接收 的 output_grad 的 形状 必须 与 Layer 类 的 
output 属性 的 形状 相同 。 对 于 backward 方法 和 input_ 属性 中 向 后 传递 的 input_grad 的 
形状 也 是 如 此 。 





.一 些 运算 具有 参数 (存储 在 paran 属性 中 ) ， 这 些 运 算 继承 自 Paran0peration 类 。 针 对 输 





入 形状 和 输出 形状 的 约束 ， 同 样 适用 于 Layer 类 及 其 forward 方法 和 backward 方法 ， 它 
们 接受 并 输出 ndarray。 另 外 ， 输 入 属性 和 输出 属性 及 其 对 应 的 梯度 在 形状 上 必须 匹配 。 
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6. NeuraLNetwork 类 也 会 有 一 个 Loss 类 。 该 类 将 获取 最 后 一 次 运算 的 输出 及 目标 ， 检 查 它 
们 的 形状 是 否 相 同 ， 并 计算 损失 值 (一 个 数字 ) 和 一 个 Loss_grad ndarray， 这 些 值 将 被 
传递 给 输出 层 ， 从 而 启动 反 向 传播 。 


3.6.1 ”实现 批量 训练 

在 训练 模型 时 ， 第 2 章 介绍 了 一 次 训练 一 批 数 据 的 高 级 步骤 。 它 们 很 重要 ， 可 以 再 重新 看 
= 

1. 将 输入 传递 给 模型 函数 (“前 向 传递 ”)， 获 得 一 个 预测 值 。 

2. 计算 表示 损失 的 数字 。 

3. 使 用 链 式 法 则 和 前 向 传递 过 程 中 所 计算 的 量 ， 计 算 相 对 于 参数 的 损失 梯度 。 

4. 使 用 这 些 梯度 更 新 参数 。 


在 完成 上 述 步骤 之 后 ， 输 入 一 批 新 数据 并 重复 这 些 步 又 。 














将 这 些 步骤 转换 为 上 述 NeuratNetwork 框架 很 简单 ， 涉 及 下 面 5 个 步 又。 














1. 接受 并 和 ? 作为 输入 ， 两 者 都 是 ndarray。 

2. 将 蕊 依次 向 前 传递 给 每 个 Layer 类 。 

3. 使 用 Loss 类 生成 损失 值 ， 并 将 损失 梯度 向 后 发 送 。 

4. 使 用 损失 梯度 作为 神经 网 络 backward 方法 的 输入 ， 该 方法 将 为 神经 网 络 中 的 每 一 层 都 
计算 参数 梯度 。 

5. 在 每 一 层 上 都 调用 update_params 函数 ， 该 函数 将 使 用 NeuralNetwork 类 的 整体 学 习 率 
以 及 新 计算 的 参数 梯度 。 











至 此 ， 我 们 终于 完整 地 定义 了 一 个 能 够 适应 批量 训练 的 神经 网 络 ， 接 下 来 对 其 进行 编码 。 





3.6.2 ”NeuralNetwork: 代 码 
对 神经 网 络 进行 编码 非常 简单 : 
class NeuratNetwork(object): 
神经 网 络 对 应 的 类 。 
def _ init (self, layers: List[Layer], 


loss: Loss, 
seed: float = 1) 


神经 网 络 需 要 层 和 一 个 损失 变量 。 
self.layers = Layers 


self.loss = loss 
self.seed = seed 
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def 


def 


def 


def 


def 


if seed: 
for layer in self.layers: 
setattr(layer, "seed", self.seed) 


forward(self, x_batch: ndarray) -> ndarray: 


六 


将 数据 向 前 传递 给 一 系列 层 。 
x_out = x_batch 
for layer in self.layers: 
x_out = layer.forward(x_out) 


return x_out 


backward(self, loss_grad: ndarray) -> None: 


证 生 这 


将 数据 向 后 传递 给 一 系列 层 。 


于 生生 


grad = loss_grad 
for layer in reversed(self.layers): 
grad = layer .backward(grad) 


return None 


train_batch(self, 
x_batch: ndarray, 
y_batch: ndarray) -> float: 


次 训 ; 江 





将 数据 向 前 传递 给 各 层 。 计 算 损 失 。 将 数据 向 后 传递 给 各 层 。 


predictions = self.forward(x_batch) 

Loss = self.loss.forward(predictions, y_batch) 
seLf .backward(seLf.Loss.backward()) 

return Loss 


params(self): 


人 


获取 神经 网 络 的 参数 。 
for Layer in self.layers: 
yield from Layer.params 


param_grads(self): 


村 吴 地 


获取 相对 于 神经 网 络 参数 的 损失 梯度 。 


车 痢 流 





for layer in self.layers: 
yield from layer .param_ grads 





借助 这 个 NeuralNetwork 类 ， 可 以 用 更 模块 化 、 更 灵活 的 方式 实现 第 2 章 中 的 模型 ， 并 定 
义 其 他 模型 来 表示 输入 和 输出 之 间 的 复杂 非 线性 关系 。 例 如 ， 下 面 展示 了 如 何 轻松 实例 化 
第 2 章 介绍 的 两 个 模型 ， 即 线性 回归 模型 和 神经 网 络 


























linear_regression = NeuralNetwork( 
layers=[Dense(neurons = 1)]， 
Loss = MeanSquaredError(), 
learning_rate = 0.01 


) 


neural_network = NeuralNetwork( 
Layers=[Dense(neurons=13， 
activation=Sigmoid()), 
Dense(neurons=1， 
activation=Linear())], 
Loss = MeanSquaredError(), 
learning_rate = 0.01 


) 


以 上 已 经 基本 完成 了 编码 工作 。 现 在 ， 只 需要 向 模型 反复 输入 数据 ， 以 便 让 其 进行 学 习 。 
为 了 使 该 过 程 更 清晰 、 更 容易 扩展 到 更 复杂 的 深度 学 习 场 景 (参见 第 4 章 )， 可 以 定义 另 
一 个 执行 训练 的 类 以 及 一 个 附加 类 ， 让 附加 类 执行 “学 习 ” 任 务 ， 或 者 根据 后 向 传递 上 计 
算 的 梯度 对 NeuralNetwork 类 进行 更 新 ， 这 种 做 法 很 有 帮助 。 下 面 来 快速 定义 这 两 个 类 。 


3.7 ”优化 器 和 训练 器 


在 第 2 章 中 ， 我 们 使 用 了 以 下 代码 来 实现 训练 模型 的 4 个 步骤 : 























# 向 前 传递 X_batch 并 计算 损失 


forward_info, loss = forward_loss(X_batch, y_batch, weights) 


# 计算 每 个 权重 的 损失 梯度 


loss_grads = loss_gradients(forward_info, weights) 


# 更 新 权重 
for key in weights.keys(): 
weights[key] -= learning_rate * loss_grads[key] 








这 些 代 码 位 于 for 循环 中 ， 该 循环 通过 函数 定义 反复 输入 数据 并 更 新 了 神经 网 络 。 

对 于 现 有 的 类 ， 最 终 将 在 Trainer 类 的 fit 函数 中 完成 这 项 操作 ， 该 函数 主要 是 第 2 章 使 
用 的 train 函数 的 包装 器 。 主 要 区 别 在 于 ， 在 这 个 新 函数 中 ， 代 码 块 的 前 两 行将 被 替换 为 
以 下 代码 行 : 





neural_network.train_batch(X_batch, y_batch) 











注 3: 0.01 的 学 习 率 没有 特殊 含义 ， 只 是 在 写 第 2 章 的 时 候 ， 我 发 现 它 在 实验 过 程 中 是 最 优 的 。 
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在 接 下 来 的 两 行 中 发 生 的 参数 更 新 将 在 单独 的 0ptimizer 类 中 进行 。 最 后 ， 之 前 包装 了 所 
有 这 些 的 for 循环 将 在 Trainer 类 中 进行 ， 该 类 包装 了 NeuralNetwork 类 和 0ptimizer 类 。 





接 下 来 介绍 需要 0ptimizer 类 的 原因 ， 以 及 它 应 该 具备 的 形态 。 








3.7.1 优化 器 

在 第 2 章 描述 的 模型 中 ， 每 个 Layer 类 都 包含 一 个 简单 的 规则 ， 用 于 根据 参数 及 其 梯度 来 
更 新 权重 。 还 可 以 使 用 许多 其 他 的 更 新 规则 (参见 第 4 章 )， 例 如 涉及 梯度 更 新 历史 的 相 
关 规则 ， 而 不 仅仅 是 在 这 个 迭代 中 输入 的 特定 批 次 的 梯度 更 新 。 也 可 以 创建 一 个 单独 的 
Optimizer 类 〈 优 化 器 )， 这 样 在 替换 更 新 规则 时 将 更 为 灵活 ， 第 4 章 将 对 此 进行 更 详细 的 
探讨 。 























说 明和 代码 
Optimizer 类 将 包含 一 个 NeuralNetwork 类 ， 并 且 每 次 调用 step 函数 时 ， 都 会 基于 它们 的 
当前 值 、 梯 度 以 及 存储 在 Optimizer 类 中 的 其 他 任意 信息 来 更 新 神经 网 络 的 参数 : 





class Optimizer(object): 


神经 网 络 优化 器 基 类 。 





def _ init__(self, 
Lr: float = 0.01): 


永生 


每 个 优化 器 都 必须 具有 初始 学 习 率 。 


Self ULr sa Lr 


de 


下 


step(self) -> None: 


每 个 优化 器 都 必须 实现 step 函 数 。 


pass 


以 下 应 用 简单 的 更 新 规则 ， 即 随机 梯度 下 降 (stochastic gradient descent) : 





class SGD(Optimizer): 
随机 梯度 下 降 优 化 器 。 


def _ init__(self, 
lr: float = 0.01) -> None: 
”不 做 处 理 。 ' 


super().__init__(1r) 





口 - 
人 
hh 


step(self): 


冲 泊 这 


对 于 每 个 参数 ， 都 按照 合适 的 方向 进行 调整 ， 调 整 的 幅度 基于 学 习 率 。 


a 
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for (param, param_grad) in zip(self.net.params(), 
seLf .net.param_grads()): 


param -= seLf.Lr * param_grad 





注意 ， 虽 然 NeuraLNetwork 类 没有 _update_params 方法 ， 但 确实 依赖 params 函 
数 和 param_grads 函数 来 提取 正确 的 ndarray 以 进行 优化 。 











以 上 是 基本 的 Optimizer 类 。 接 下 来 介绍 Trainer 类 。 


3.7.2 训练 器 

除了 训练 模型 ，Trainer 类 (训练 器 ) 还 将 NeuralNetwork 类 与 0ptimizer 类 链接 在 一 
起 ， 确 保 后 者 正确 训练 前 者 。 你 可 能 已 经 注意 到 ，3.7.1 节 在 初始 化 Optimizer 类 时 没有 传 
入 NeuralNetwork 类 。 相 反 ， 稍 后 当初 始 化 Trainer 类 上 时， 会 将 NeuraLNetwork 类 指定 为 
Optimizer 类 的 一 个 属性 ， 如 下 所 示 : 





setattr(self.optim, 'net', self.net) 





下 面 将 展示 一 个 简化 但 有 效 的 Trainer 类 ， 它 目前 只 包含 fit 函数 。 该 方法 对 模型 进行 
轮训 练 ， 并 在 每 轮训 练 后 打印 出 损失 值 。 每 轮训 练 都 执行 下 面 两 个 操作 。 


1. 在 新 一 轮训 练 开始 时 温 洗 数据 。 
2. 将 数据 分 批 输 入 到 神经 网 络 中 ， 在 每 批 数 据 传 送 完 成 后 更 新 参数 。 


当 将 整个 训练 集 输入 给 Trainer 类 之 后 ， 一 轮 就 会 结束 。 


训练 器 代码 

以 下 代码 展示 了 简单 版 本 的 Trainer 类 ， 我 们 隐藏 了 fit 函数 中 使 用 的 两 个 自 解释 的 辅助 
方法 : 一 个 是 generate_batches 方法 ， 它 根据 X_train 和 y_train 生成 批量 数据 用 于 训练 ， 
另 一 个 是 permute_data 方法 ， 它 在 每 轮训 练 开始 时 对 X_train 和 y_train 进行 混 洗 。traiin 
国 数 还 包含 restart 参数 ， 如 果 该 参数 为 True (默认 值 ) ， 那 么 在 调用 train 函数 时 ， 它 会 
将 模型 参数 重新 初始 化 为 随机 值 : 





























class Trainer(object): 


1 


训练 神经 网 络 。 


def _ init__(self, 
net: NeuralNetwork, 
optim: Optimizer) 


i 


需要 一 个 神经 网 络 和 一 个 优化 器 ， 以 进行 训练 。 将 神经 网 络 作为 实例 变量 分 配给 优化 器 。 
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seLf .net = net 
setattr(self.optim, 'net', self.net) 


def fit(self, X_train: ndarray, y_train: ndarray， 
X_test: ndarray, y_test: ndarray， 
epochs: int=100, 
eval_every: int=10, 
batch_size: int=32, 
seed: int = 1， 
restart: bool = True) -> None: 


让 年 [全 


经 过 一 定 轮 数 的 训练 ， 将 神经 网 络 与 训练 数据 拟 合 。 对 于 每 eval_every 轮 ， 
它 都 基于 测试 数据 对 神经 网 络 进行 计算 。 


np.random. seed(seed) 
if restart: 
for layer in self.net.layers: 
layer .first = True 
for e in range(epochs): 


X_train, y_train = permute data(X_train, y_train) 


batch_generator = self.generate batches(X_ train, y_train, 
batch_size) 


for ii, (X_batch, y_batch) in enumerate(batch_generator): 
self.net.train batch(X_batch, y_batch) 
self.optim.step() 

if (e+1) % eval_every == 0: 
test_preds = seLf.net.forward(X_test) 
Loss = seLf.net.Loss.forward(test_preds，y_test) 


print(f"Validation Loss after {e+1} epochs is {Loss:.3f}") 

















你 可 以 在 本 书 的 随 书 文件 中 “找到 完整 版 本 ， 其 中 还 实现 了 提前 停止 (early stopping) 功 
能 ， 该 功能 将 执行 以 下 操作 。 








1. 每 eval_every 轮 保存 损失 值 。 
2. 检查 验证 损失 是 否 低 于 上 次 计算 的 损失 值 。 
3. 如 果 验 证 损失 不 低 于 上 次 计算 的 损失 值 ， 那 么 使 用 eval_every 轮 之 前 的 模型 。 


当 完 成 上 述 准备 后 ， 便 拥有 了 训练 模型 所 需 的 一 切 |! 














注 4: 可 以 从 图 灵 社 区 下 载 随 书 文件 ituring.cn/book/2759。 一 一 编者 注 

















3.8 整合 





以 下 给 出 使 用 Trainer 类 和 0ptimizer 类 以 及 之 前 定义 的 两 个 模型 (Linear_regression 和 
neural_network) 来 训练 神经 网 络 的 完整 代码 。 将 学 习 率 设置 为 0.01， 最 大 轮 数 设置 为 50， 
并 且 每 10 轮 评估 一 次 模型 : 


optimizer = SGD(Lr=0.01) 
trainer = Trainer(linear_regression, optimizer) 


trainer.fit(X_train, y_train, X_test, y_test, 
epochs = 50， 
eval_every = 10， 
seed=20190501); 


Validation loss after 10 epochs is 30.295 
Validation loss after 20 epochs is 28.462 
Validation loss after 30 epochs is 26.299 
Validation Loss after 40 epochs is 25.548 
Validation loss after 50 epochs is 25.092 














使 用 与 第 2 章 相同 的 模型 评分 函数 ， 并 将 其 包装 在 eval_regression_model 函数 中 ， 可 以 
得 到 以 下 结果 : 


eval_regression model(linear_regression, X_ test, y_test) 
Mean absolute error: 3.52 


Root mean squared error 5.01 

















可 以 看 到 ， 平 均 绝对 误差 为 3.52， 均 方 根 误差 为 5.01。 这 些 结果 与 第 2 章 中 的 线性 回归 结 
果 接 近 ， 证 明 框 架 是 有 效 的 。 





使 用 带 有 13 个 隐藏 神经 元 的 neural_network 模型 运行 相同 的 代码 ， 可 以 得 到 以 下 结果 : 


Validation Loss after 10 epochs is 27.434 
Validation Loss after 20 epochs is 21.834 
Validation Loss after 30 epochs is 18.915 
Validation Loss after 40 epochs is 17.193 
Validation Loss after 50 epochs is 16.214 





eval_regression model(neural_network, X_test, y_test) 
Mean absolute error: 2.60 


Root mean squared error 4.03 

















同样 ， 这 些 结果 与 第 2 章 中 的 结果 相似 ， 它 们 明显 优 于 简单 的 线性 回归 模型 。 


第 一 个 深度 学 习 模 型 


既然 所 有 这 些 设置 都 已 完成 ， 那 么 定义 第 一 个 深度 学 习 模 型 就 很 简单 了 : 
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deep_neural_network = NeuralNetwork( 
layers=[Dense(neurons=13, 
activation=Sigmoid()), 
Dense(neurons=13， 
activation=Sigmoid()), 
Dense(neurons=1, 
activation=LinearAct())], 
loss=MeanSquaredError(), 
learning_rate=0.01 


) 


我 们 甚至 不 必 对 此 多 做 思 芳 ， 只 需 添 加 一 个 与 第 一 层 具有 相同 维度 的 隐藏 层 。 这 样 一 来 ， 
该 神经 网 络 就 有 两 个 隐藏 层 ， 每 个 隐藏 层 具有 13 个 神经 元 。 


























使 用 与 先前 模型 相同 的 学 习 率 和 评估 进度 进行 训练 ， 可 以 得 到 以 下 结果 : 


Validation loss after 10 epochs is 44.134 
Validation Loss after 20 epochs is 25.271 
Validation Loss after 30 epochs is 22.341 
Validation Loss after 40 epochs is 16.464 
Validation Loss after 50 epochs is 14.604 


eval_regression model(deep _ neural_network, X_test, y_test) 


Mean absolute error: 2.45 


Root mean squared error 3.82 


我 们 终于 实现 了 从 零 开始 构建 深度 学 习 模 型 。 事 实 上 ， 在 这 个 实际 问题 中 ， 除 了 需要 稍微 
调整 学 习 率 ， 无 须 其 他 任何 技巧 。 从 这 方面 来 看 ， 深 度 学 习 模 型 确实 比 只 有 一 个 隐藏 层 的 
神经 网 络 表现 稍 好 。 


更 重要 的 是 ， 这 一 点 可 以 通过 建立 易于 扩展 的 框架 来 实现 。 假 设 其 他 类 型 的 Operation 类 
已 经 定义 了 _output 方法 和 _input_grad 方 法 ， 并且 输入 、 输 出 和 参数 的 维度 与 它们 各 自 
梯度 的 维度 相 匹 配 ， 那 么 就 可 以 轻松 实现 这 些 类 ， 并 将 它们 包装 在 一 个 新 的 Layer 中 直接 
使 用 。 同 样 ， 还 可 以 轻松 地 将 不 同 的 激活 函数 放 到 现 有 的 层 中 ， 看 看 它 是 否 会 降低 错误 指 
标 。 我 建议 你 动手 尝试 一 下 | 


3.9 ”小 结 与 展望 


本 章 涉及 的 问题 相对 简单 。 第 4 章 将 介绍 一 些 技术 ， 这 些 技术 对 于 在 更 具 挑 战 性 的 问题 中 
正确 训练 模型 至 关 重 要 ， 尤 其 是 定义 其 他 Loss 类 和 0ptimizer 类 。 第 4 章 还 会 涉及 其 他 技 
术 ， 可 用 于 调整 学 习 率 并 在 整个 训练 过 程 中 对 其 进行 修改 ， 同 时 将 演示 如 何在 0ptimizer 
类 和 Trainer 类 中 应 用 这 些 技术 。 最 后 会 介绍 dropout， 这 是 一 种 新 的 0peration 类 ， 对 提 
高 深度 学 习 模 型 的 训练 稳定 性 至 关 重 要 。 加 油 ! 
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扩展 








第 1 章 和 第 2 章 从 基本 原则 出 发 ， 探 讨 了 深度 学 习 模 型 的 概念 及 其 工作 原理 。 在 此 基础 
上 ,第 3 章 构建 了 第 一 个 深度 学 习 模型 ， 并 对 其 进行 了 训练 ， 旨 在 解决 相对 简单 的 房价 预 
测 问题 。 但 是 ， 在 大 多 数 现实 问题 中 ， 成 功 训练 次 度 学 习 模型 并 不 是 那么 容易 。 尽 管 可 以 
想象 这 些 模型 能 够 找到 任意 问题 (监督 学 习 问 题 ) 的 最 优 和 解决 方案 ， 但 事实 上 它们 经 常会 
失败 ， 而 且 对 于 给 定 的 模型 架构 ， 很 难 在 理论 上 保证 为 给 定 的 问题 找到 良好 的 解决 方案 。 
尽管 如 此 ， 还 是 可 以 应 用 一 些 技术 ， 这 些 技术 易于 理解 ， 而 且 能 提高 神经 网 络 训练 成 功 的 
概率 。 本 章 的 重点 就 是 这 些 技术 。 


本 章 首先 回顾 神经 网 络 在 数学 上 “尝试 做 的 事情 ”， 即 找到 函数 的 最 小 值 ， 基 次 展示 一 系 
列 有 助 于 神经 网 络 实现 这 一 点 的 技术 ， 并 在 经 典 的 MNIST 手写 数字 数据 集 上 证 明 其 有 效 
性 。 我 们 将 从 损失 函数 开始 学 习 ， 该 函数 应 用 于 深 度 学 习 的 整个 分 类 问题 。 你 将 看 到 ， 它 
能 够 显著 地 加 速 学 习 过 程 。 此 外 ， 我 们 还 会 讨论 除 sigmoid 之 外 的 其 他 激活 函数 ， 这 些 激 
活 函 数 也 可 以 加 速 学 习 过 程 。 接 着 介绍 动量 (momentum)， 这 是 随机 梯度 下 降 优 化 技术 的 
最 重要 、 最 直接 的 扩展 ， 同 时 简要 讨论 更 高 级 的 优化 器 。 最 后 介绍 3 种 互 不 相关 但 必 不 可 
少 的 技术 : 学 习 率 衰减 、 权 重 初始 化 和 dropout。 正 如 你 将 看 到 的 ， 每 种 技术 都 将 帮助 神经 
网 络 依次 找到 更 优 的 解决 方案 。 












































第 1 章 遵循 “数学 、 示 意图 、 代 码 ” 的 结构 介绍 了 每 个 概念 。 在 本 章 中 ， 由 于 每 种 技术 都 
没有 明确 的 示意 图 ， 因 此 这 里 将 从 关于 每 种 技术 的 “直觉 ”开始 ， 然 后 进行 数学 运算 ( 通 











常 比 第 1 章 中 的 内 容 要 简单 得 多 )， 最 后 以 代码 结束 。 这 实际 上 需要 将 技术 整合 到 已 经 构 








注 1: 目前 本 书 只 讨论 了 回归 问题 ， 由 于 还 没有 引入 这 个 损失 函数 ， 因 此 还 不 能 合理 地 处 理 分 类 问题 。 
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建 的 框架 中 ， 从 而 精确 地 描述 这 些 技术 如 何 与 第 3 章 介绍 的 构成 要 素 进行 交互 。 基 于 这 个 
思路 ， 本 章 从 神经 网 络 的 目标 讲 起 ， 即 找到 函数 的 最 小 值 。 


4.1 关于 神经 网 络 的 一 些 直 觉 


如 前 所 述 ， 神 经 网 络 包 含 许多 权重 。 有 了 这 些 权 重 ， 再 加 上 一 些 输入 数据 六 和 y， 就 可 以 
计算 出 最 终 的 损失 值 。 图 4-1 粗略 地 展示 了 神经 网 络 ， 尽 管 十 分 简化 ， 但 这 种 描绘 方式 仍 
然 正 确 。 




















图 4-1: 以 简化 的 方式 描绘 带 有 权重 的 神经 网 络 


实际 上 ， 每 一 个 单独 的 权重 都 与 特征 X、 目 标 y、 其 他 权重 以 及 最 终 的 损失 值 L 有 着 复杂 
的 非 线 性 关系 。 如 果 在 保持 其 他 权重 、X 和 y 的 值 不 变 的 情况 下 改变 权重 不 ， 并 绘制 出 损 
失 值 工 的 变化 情况 ， 那 么 可 以 看 到 如 图 4-2 所 示 的 结果 。 









































图 4-2: 神经 网 络 的 权重 与 损失 


当 开 始 训 练 神经 网 络 时 ， 首 先 将 每 个 权重 初始 化 为 图 4-2 中 横 轴 上 的 某 个 值 。 然 后 ， 使 用 
在 反 向 传播 过 程 中 计算 出 的 梯度 ， 迭 代 更 新 权重 ， 并 根据 该 曲线 在 选择 的 初始 值 处 的 斜率 
进行 第 一 次 更 新 “。 图 4-3 从 几何 角度 解释 了 基于 梯度 和 学 习 率 更 新 神经 网 络 权 重 的 含义 。 
左边 部 分 的 箭头 表示 重复 地 应 用 更 新 规则 ， 甚 学习 率 比 右边 部 分 的 箭头 小 。 注 意 ， 在 这 两 


















































注 2: 此 外 ， 正 如 你 在 第 3 章 中 所 看 到 的 ， 将 这 些 梯度 乘 以 学 习 率 ， 以 便 对 权重 的 变化 进行 更 精细 的 控制 。 
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种 情况 下 ， 水 平方 向 上 的 更 新 都 与 权重 值 处 曲线 的 斜率 成 比例 (斜率 越 大 表示 更 新 程度 
越 大 )。 

















gy 


W 








图 4-3: 以 几何 方式 描绘 如 何 根据 梯度 和 学 习 率 更 新 神经 网 络 的 权重 


训练 深度 学 习 模 型 的 目标 是 将 每 个 权重 都 移动 到 使 损失 最 小 化 的 “全 局 ” 值 。 从 图 4-3 中 
可 以 看 出 ， 如 果 采 取 的 步 长 太 小 ， 就 有 可 能 最 终 达 到 “局 部 ”最 小 值 ， 这 要 次 于 全 局 最 小 
值 (左边 部 分 的 箭头 展示 了 遵循 该 方案 的 权重 路 径 ) 。 如 果 步 长 大 大 ， 即 使 靠近 了 全 局 最 
小 值 ， 也 有 可 能 “反复 跳 过 ” 它 〈 如 右边 部 分 的 箭头 所 示 )。 这 是 在 调整 学 习 率 时 要 权衡 
的 根本 问题 ， 如 果 学 习 率 太 小 ， 就 可 能 会 陷入 局 部 最 小 值 ， 如 果 学 习 率 太 大 ， 则 可 能 跳 过 
全 局 最 小 值 。 



































实际 上 ， 人 情况 要 比 这 复杂 得 多 。 原 因 之 一 是 ， 神 经 网 络 具 有 成 千 上 万 个 甚至 数 百 万 个 权 
重 ， 也 就 是 说 ， 我 们 是 在 一 个 具有 数 千 甚至 数 百 万 个 维度 的 空间 中 寻找 全 局 最 小 值 。 而 
且 ， 由 于 在 每 次 迭代 中 都 要 更 新 权重 ， 并 传递 不 同 的 X 和 >y， 因 此 最 小 值 的 曲线 是 不 断 变 
化 的 ! 这 是 多 年 来 神经 网 络 遭 到 质疑 的 主要 原因 之 一 ， 似 乎 用 这 种 方式 迭代 更 新 权重 并 不 
能 真正 找到 全 局 最 优 的 解决 方案 。Yann LeCun 等 人 在 2015 年 《自然 》 杂 志 的 一 篇 文章 中 
说 得 最 好 : 


























人 们 普遍 认为 ， 简 单 的 梯度 下 降 会 陷入 不 良 的 局 部 最 小 值 一 对 权重 配置 进行 细 
微调 整 不 会 减少 平均 误差 。 在 实践 中 ， 大 型 神经 网 络 很 少 会 出 现 不 良 局 部 最 小 什 
的 问题 。 不 管 初 始 条 件 如 何 ， 该 系统 几乎 总 是 能 获得 质量 非常 接近 的 解决 方案 。 
最 近 的 理论 和 经 验 结果 强烈 表明 ， 局 部 最 小 值 通常 不 是 一 个 严重 的 问题 。 


在 实践 中 ， 图 4-3 既 提供 了 一 个 很 好 的 思维 模型 ， 说 明了 学 习 率 不 应 过 大 或 过 小 ， 也 足以 
解释 本 章 将 介绍 的 众多 技术 是 行 之 有 效 的 。 从 直觉 上 理解 了 神经 网 络 的 目标 之 后 ， 便 可 以 
开始 研究 这 些 技术 。 下 面 将 从 softmax 交叉 蚁 (softmax cross entropy) 损失 函数 开始 研究 ， 
该 函数 之 所 以 起 作用 ， 在 很 大 程度 上 是 因为 相 比 第 3 章 中 的 均 方 误差 损失 函数 ， 它 能 够 提 
供 更 为 陡峭 的 权重 梯度 。 
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4.2 ”softmax 交 又 炉 损失 函数 


第 3 章 使 用 MSE ( 均 方 误差 ) 作为 损失 函数 ， 这 个 函数 具有 很 好 的 凸 性 ， 这 意味 着 预测 值 
距离 目标 值 越 远 ，Loss 发 送 回 神经 网 络 Layer 的 初始 梯度 越 陡 峭 ， 参 数 接收 到 的 所 有 梯度 
也 就 越 大 。 事 实证 明 ， 在 分 类 问题 中 ,该 函数 还 可 以 做 得 更 好 ， 这 是 因为 在 该 类 问题 中 ， 
神经 网 络 的 输出 值 应 解释 为 概率 。 因 此 ， 对 于 输入 到 神经 网 络 的 所 有 观测 值 ， 不 仅 每 个 值 
都 应 该 位 于 0 和 1 之 间 ， 而 且 概 率 向 量 的 总 和 应 该 为 1。softmax 交 又 炉 损 失 函 数 正 是 利用 
这 一 点 ， 来 产生 比 相同 输入 对 应 的 均 方 误差 损失 更 为 陡峭 的 梯度 。 这 个 函数 有 两 个 组 件 ， 
分 别 是 softmax 函数 和 交 又 炉 损失 。 接 下 来 依次 介绍 这 两 个 组 件 。 



































4.2.1 组 件 1: softmax 函 数 


对 于 具有 个 可 能 类 别 的 分 类 问题 ， 可 以 让 神经 网 络 为 每 个 观测 值 输出 一 个 包含 YX 个 值 的 
向 量 。 以 具有 3 个 类 别 的 问题 为 例 ， 这 些 值 可 以 是 下 面 这 样 。 


[5, 3, 2] 
1. 数学 
针对 分 类 问题 ， 我 们 知道 应 该 将 输出 解释 为 概率 向 量 。 将 这 些 值 转换 为 概率 向 量 的 一 种 方 
法 是 将 它们 归 一 化 ， 即 每 个 值 除 以 所 有 值 之 和 : 


be 
x 1 2 : 
normalize| | x, | |= 
se 
Xs 1 3 


学 






































然而 ， 有 另 一 种 方法 ， 它 既 能 产生 更 陡峭 的 梯度 ， 又 具有 一 些 优雅 的 数学 属性 ， 那 就 是 使 
用 softmax 函数 。 对 于 长 度 为 3 的 向 量 ,， 该 函数 定义 如 下 。 


6 
el 十 em” 十 6 

如 ID 

e™ 
softmax xX 二 ne 
e'+e”*+e’ 

Xa pp- 
Xk 

2. 理解 


在 softmax 函数 中 ， 相 对 于 其 他 值 ， 它 可 以 最 大 限度 地 放大 最 大 值 ， 并 且 在 分 类 问题 中 ， 
迫使 神经 网 络 “ 不 中 立 ” 而 使 其 偏向 它 认 为 正确 的 预测 。 下 面 比 较 normalize 和 softmax 这 
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两 个 函数 对 前 面 提 到 的 概率 向 量 的 作用 : 


normalize(np.array([5,3,2])) 

array([0.5, 0.3, 0.2]) 

softmax(np.array([5,3,2])) 

array([0.84, 0.11, 0.04]) 
可 以 看 到 ，softmax 函数 使 原始 最 大 值 5 对 应 的 输出 值 高 于 normalize 函数 得 到 的 值 ， 而 其 
他 两 个 值 则 低 于 它们 从 normalize 函数 中 得 出 的 值 。 由 于 softmax 函数 介 于 将 值 进 行 归 一 化 
和 实际 应 用 max 函数 之 间 *， 因 此 将 它 命名 为 softmax。 


4.2.2” ”组件 2: 交叉 业 损 失 




















Di 


回想 一 下 ， 任 何 损 失 函 数 都 包含 一 个 概率 向 量 











i 
as ， 


也， JJ 


1. 数学 
对 于 这 些 向 量 中 的 每 个 索引 值 i;， 交 又 炉 损 失 函 数 表 示 如 下 。 





CE(p,,y,)=—y, xlog(p,)—(—y,)xlog(l— p,) 
2. 理解 
对 于 交叉 炉 损失 函数 ， 可 以 这 样 思 考 : 因为 y 的 每 个 元 素 都 是 0 或 1， 所 以 前 面 的 方程 可 
以 简化 为 : 
log(1-p,)， 当 y=0 时 
-log(P) ， 当 六 =1 时 





cos-| 








现在 ， 可 以 更 轻松 地 进行 分 解 。 如 果 y= 0， 则 在 0 到 1 的 区 间 内 ， 该 损失 值 与 均 方 误差 损 
失 值 的 关系 如 图 4-4 所 示 。 











一 一 交叉 焙 损 失 ( 偏 上 的 线 ) 
一 一 均 方 误差 ( 偏 下 的 线 ) 




















图 4-4: 当 y = 0 时， 交叉 粹 损失 与 均 方 误差 的 关系 








注 3: 在 本 例 中 ， 这 将 导致 输出 array([1.9,9.0，0.9])。 
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在 这 个 区 间 内 , 不 仅 对 交叉 炉 损失 的 惩罚 要 高 得 多 “, 而 且 它 们 以 更 快 的 速率 变 陡 。 实 际 上 ， 
当 预 测 值 与 目标 值 之 差 接近 1 时 ， 交 叉 灶 损 失 的 值 就 接近 无 穷 大 ! 当 y= 1 时 的 曲线 也 类 
似 ， 只 是 做 了 “翻转 " ， 即 绕 x= 0.5 旋转 了 180 度 。 


因此 ， 对 于 所 知 的 输出 将 位 于 0 和 1 之 间 的 问题 ， 交 又 炉 损失 产生 的 梯度 比 均 方 误差 的 梯 
度 更 陡 。 当 把 这 个 损失 和 softmax 函数 结合 起 来 时 ， 真 正 的 “魔术 ”就 出 现 了 : 首先 通过 

















softmax 函数 将 神经 网 络 的 输出 进行 归 一 化 ， 这 样 值 的 总 和 变 为 1， 然 后 将 得 到 的 概率 输入 
给 交叉 糯 损失 函数 。 





看 一 下 目前 的 3 类 场景 。 从 i= 1 开始 的 损失 向 量 的 组 件 表达 式 如 下 所 示 (给 定 观 测 值 的 损 
失 的 第 一 个 组 件 ， 将 其 表示 为 SCE) : 


scE, -xl > | a xls -二 
€ "+ [ss 


基于 这 个 表达 式 ， 对 于 这 种 损失 ， 梯 度 似乎 要 复杂 一 些 。 然 而 ， 还 是 存在 一 个 简洁 的 表达 
式 ， 既 易于 数学 表达 又 易于 实现 : 





SCE 6 
Ox 





1 


” er +e 十 6 


这 意味 着 softmax 交 又 烂 的 总 梯度 为 : 








就 是 这 样 ! 正如 所 承诺 的 ， 最 终 的 实现 也 很 简单 : 





softmax_x = softmax(x, axis = 1) 
loss grad = softmax x - y 





接 下 来 对 此 进行 编码 。 


3. 代码 

回顾 第 3 章 ， 所 有 Loss 类 都 将 接收 到 两 个 二 维 数组 ， 一 个 包含 神经 网 络 的 预测 值 ， 另 一 
个 包含 目标 值 。 每 个 数组 中 的 行 数 是 批 次 大 小 ， 列 数 是 分 类 问题 中 的 类 别 数 n。 每 行 代表 
数据 集中 的 一 个 观测 值 ， 该 行 中 的 n 个 值 代表 神经 网 络 对 该 观测 值 的 最 佳 猿 测 ， 对 应 所 属 
1 个 类 别 中 每 一 个 类 别 的 概率 。 因 此 ， 必 须 将 softmax 函数 应 用 于 prediction 数组 中 的 每 
一 行 。 这 导致 了 一 个 潜在 的 问题 : 接 下 来 将 把 得 到 的 数值 输入 至 log 函数 来 计算 损失 。 但 





























注 4; 可 以 更 具体 地 讲 : 在 0 到 1 的 区 间 内 ，-log(-29 的 平均 值 为 1， 而 在 相同 区 间 内 的 工 的 平均 值 人 为 
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这 样 会 引发 问题 ， 因 为 当 x 无 限 接近 0 时 ，logx 将 变 为 负 无 穷 大 ， 同 样 ， 当 x 无 限 接近 
1 时 ，1log(1 一 x) 将 变 为 负 无 穷 大 。 为 防止 可 能 导致 数值 不 稳定 的 极 大 损失 值 ， 这 里 限制 
softmax 函数 的 输出 取 值 范围 为 10” ~ 10"。 








最 后 ， 可 以 将 所 有 内 容 整 合 在 一 起 ! 


class SoftmaxCrossEntropyLoss(Loss ) : 
def _ init__(self, eps: float=1e-9) 
super().__init__() 
seLf .eps = eps 
self.single output = False 


de 


=-h 


_output(self) -> float: 


# 对 每 一 行 (观测 值 ) 应 用 softmax 函 数 
softmax_preds = softmax(self.prediction, axis=1) 


BR 














# 为 防止 数值 不 稳定 ， 限 制 softmax 函 数 的 输出 的 取 值 范围 


seLf .softmax_preds = np.clip(softmax_preds, self.eps, 1 - self.eps) 


# 实际 损失 计算 
softmax_cross_entropy_loss = ( 
-1.0 * self.target * np.Log(seLf.softmax_preds) - \ 
(1.0 - self.target) * np.log(1 - self.softmax_preds) 














) 
return np.sum(softmax_cross_entropy_loss) 
def _input_grad(self) -> ndarray: 
return self.softmax_preds - self.target 
很 快 ， 本 章 将 通过 MNIST 数据 集 上 的 一 些 实验 来 说 明 这 种 损失 如 何 改 善 均 方 误差 损失 。 


不 过 ， 首 先 看 一 下 选择 向 活 函 数 所 涉及 的 孝 虑 因素 ， 查 看 是 否 有 比 sigmoid 函数 更 好 的 
选择 。 


4.2.3 ”关于 激活 函数 的 注意 事项 
在 第 2 章 中 ， 我 们 认为 sigmoid 函数 是 很 好 的 激活 


1. 它 是 非 线 性 单调 函数 。 
2. 它 在 模型 上 提供 了 “正则 化 ”效果 ， 将 中 间 特 征 强制 界定 在 有 限 范围 内 ， 具 体 而 言 就 是 
在 0 和 1 之 间 。 


Ea 





数 ， 这 是 因为 它 具 有 以 下 两 个 特征 。 














尽管 如 此 ， 类 似 于 均 方 误差 损失 ，sigmoid 函数 也 有 一 个 缺点 : 它 在 后 向 传递 时 会 产生 相 
对 平坦 的 梯度 。 后 向 传递 到 sigmoid 函数 (或 任何 其 他 函数 ) 的 梯度 代表 函数 的 输出 最 终 
对 损失 的 影响 程度 。 因 为 sigmoid 函数 的 最 大 斜率 是 0.25， 所 以 当 把 这 些 梯度 向 后 发 送 至 
模型 中 的 上 一 个 运算 时 ， 这 些 梯度 最 多 只 能 除 以 4。 更 糟糕 的 是 ， 当 sigmoid 函数 的 输入 
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小 于 -2 或 大 于 2 时 ， 这 些 输入 所 接收 的 梯度 将 几乎 为 0， 这 是 因为 sigmoid(x) 在 x = -2 或 
x= 2 时 几乎 是 平坦 的 。 这 意味 着 影响 这 些 输入 的 任何 参数 都 会 收 到 较 小 的 梯度 ， 因 此 神 
经 网 络 的 学 习 速 度 会 很 慢 “。 此 外 , 如 果 在 神经 网 络 的 连续 层 中 使 用 多 个 sigmoid 激活 函数 ， 
那么 这 个 问题 将 变 得 更 加 复杂 ， 进 一 步 减少 了 神经 网 络 中 较 早 存在 的 权重 可 能 接收 到 的 
梯度 。 


“处 于 另 一 极端 ”( 具 有 相反 的 优 缺 点 ) 的 激活 函数 会 是 什么 情况 呢 ? 








1. 另 一 个 极端 : ReLU 
ReLU 是 一 种 常用 的 激活 函数 ， 它 具有 与 sigmoid 国 数 相 反 的 优 缺 点 。 如 果 x 小 于 0， 则 
ReLU 简单 地 定义 为 0， 否 则 定义 为 x， 如 图 4-5 所 示 。 








T T 下 下 
4 一 0 2 4 











图 4-5: ReLU 激活 函数 


从 单调 和 非 线 性 的 角度 来 看 ， 这 是 一 个 “有 效 ” 的 激活 函数 。 它 产生 的 梯度 要 比 sigmoid 
函数 大 得 多 ， 即 如 果 函 数 的 输入 大 于 0， 则 梯度 为 1， 其 他 情况 则 为 0， 平均 梯度 为 0.5， 
而 sigmoid 函数 可 生成 的 最 大 梯度 为 0.25。ReLU 激活 函数 在 深度 神经 网 络 架 构 中 是 非常 
流行 的 选择 ， 这 是 因为 它 的 缺点 (在 小 于 0 和 大 于 0 的 值 之 间 形 成 了 过 于 明显 的 差别 ) 可 
以 通过 其 他 技术 来 弥补 ， 包 括 本 章 讨论 的 一 些 技术 ， 而 它 的 优点 (产生 大 的 梯度 ) 对 于 训 
练 深 层 神 经 网 络 染 构 中 的 权重 至 关 重要 。 

不 过 ， 有 一 个 激活 国 数 介 于 这 两 者 之 间 ， 是 一 种 令 人 愉快 的 折 中 方案 。 本 章 使 用 它 来 演 
示 ， 它 就 是 Tanh 函数 。 


2. 令 人 愉快 的 折 中 方案 : Tanh 
Tanh 函数 的 形状 与 sigmoid 函数 类 似 ， 但 输出 的 取 值 范围 是 -1 ~ 1， 如 图 4-6 所 示 。 





























注 5: 可 以 直观 了 解 发 生 这 种 情况 的 原因 : 假设 权重 w 构成 了 特征 f， 即 f= wxx+… ， 在 神经 网 络 的 前 向 
传递 过 程 中 ， 当 /= -10 时 记录 一 些 观测 值 。 由 于 sigmoid(x) 在 x= -10 时 近似 平坦 ， 因 此 更 改 w 的 值 
几乎 不 会 影响 模型 预测 ， 也 就 不 会 影响 损失 。 

注 6: Rectified Linear Unit， 修 正 线性 单元 。 
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图 4-6: Tanh 激活 函数 


该 函数 产生 比 sigmoid 曲线 更 陡峭 的 梯度 。 具 体 来 说 ， 与 sigmoid 函数 的 0.25 相 比 ，Tanh 
函数 的 最 大 梯度 为 1。 图 4-7 展示 了 这 两 个 函数 的 导数 变化 情况 。 























10 一 一 sigmoid(x) 导 数 ( 较 缓 的 线 ) 
一 一 Tanh(x) 导 数 ( 较 陡 的 线 ) 

















图 4-7: 对 比 sigmoid 函数 与 Tanh 函数 的 导数 


此 外 ， 正 如 f(x)=sigmoid(x) 具有 易于 表达 的 导数 f'(x) =sigmoid(x)x( 一 sigmoid(x)) 一 样 ， 
f(x)=tanh(x) 也 具有 易于 表达 的 导数 , 即 f(x)=1-tanh (x) 。 


这 里 的 要 点 是 ， 无 论 采用 哪 种 架构 ， 选 择 激 活 函 数 都 需要 进行 权衡 : 我 们 想 要 这 样 一 个 
激活 函数 ， 该 国 数 将 使 神经 网 络 能 够 学 习 输 入 和 输出 之 间 的 非 线 性 关系 ， 而 又 不 会 增加 
不 必要 的 复杂 性 ， 因 为 这 种 复杂 性 会 导致 神经 网 络 更 难 找到 一 个 好 的 解决 方案 。 例 如 ， 
当 ReLU 激活 函数 的 输入 小 于 0 时 ，Leaky ReLU 激活 函数 允许 略微 的 负 和 斜率 ， 从 而 增强 














注 7: 即 “ 带 泄漏 的 修正 线性 单元 "。 一 一 译 者 注 
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ReLU 激活 函数 向 后 发 送 梯度 的 能 力 ; 而 ReLU6 激活 函数 将 ReLU 激活 函数 的 正 端 限制 为 
6， 从 而 将 更 强 的 非 线性 引入 神经 网 络 。 尽 管 如 此 ， 这 两 个 激活 函数 都 比 ReLU 激活 函数 
更 为 复杂 。 如 果 要 解决 的 问题 相对 简单 ， 那 么 那些 更 复杂 的 激活 函数 可 能 会 导致 神经 网 络 
学 习 起 来 更 为 困难 。 因 此 ， 在 本 书 其 余部 分 所 演示 的 模型 中 ， 我 们 将 仅 使 用 Tanh 激活 函 
数 ， 该 函数 很 好 地 平衡 了 这 些 因素 。 


现在 已 经 选择 了 激活 函数 ， 接 下 来 使 用 它 做 一 些 实验 。 


4.3 实验 


为 什么 softmax 交叉 烂 损失 在 整个 深度 学 习 中 如 此 普遍 呢 "? 这 里 将 使 用 MNIST 数据 集 ， 
它 由 黑白 图 像 组 成 ， 每 幅 图 像 包含 28 像素 x 28 像素 的 手写 数字 ， 每 像素 的 取 值 范围 为 
0 (和 白色) ~ 255 (黑色 )。 此 外 ， 该 数据 集 被 预先 分 为 包含 60 000 幅 图 像 的 训练 集 和 10 
000 幅 附 加 图 像 的 测试 集 。 你 可 以 在 本 书 的 随 书 文件 中 找到 一 个 辅助 函数 ， 该 辅助 函数 使 
用 以 下 代码 在 训练 集 和 测试 集中 读 取 图 像 及 其 对 应 标签 : 






























































Xx_train, y_train, X_test, y_test = mnist.load() 


我 们 的 目标 是 训练 一 个 神经 网 络 ， 从 而 学 习 图 像 所 包含 的 具体 内 容 ， 也 就 是 具体 包含 0 ~ 9 
中 的 哪些 数字 。 


4.3.1 数据 预 处 理 
对 于 分 类 ， 必 须 执 行 独 热 编 码 (one-hot encoding)， 从 而 将 表示 标签 的 向 量 转换 为 与 预测 
形状 相同 的 ndarray。 上 有 具体 地 说 ， 将 标签 “0” 映 射 到 一 个 向 量 ， 该 向 量 的 第 一 个 位 置 为 1 
(索引 为 0) ， 而 其 他 所 有 位 置 都 为 0， 再 将 标签 “1” 了 映射 到 第 二 个 位 置 为 工 的 向 量 (索引 
为 1)， 以 此 类 推 ， 








[100…0 
[o 2, 1]=S1001...0 
[1010...0 


最 后 ， 就 像 在 前 儿童 中 对 现实 世界 的 数据 集 所 做 的 那样 ， 把 数据 缩放 成 均值 为 0 和 方差 
为 1， 这 点 很 有 帮助 。 但 是 ， 由 于 每 个 数据 点 都 是 一 幅 图 像 ， 因 此 这 里 不 会 将 每 个 特征 缩 
放 为 均值 0 和 方差 1， 否 则 会 导致 相 邻 像素 的 值 变 为 不 同 的 量 ， 这 样 可 能 会 使 图 像 失真 ! 
相反 ， 仅 对 数据 集 进 行 全 局 缩放 ， 即 减 去 总 体 均值 并 除 以 标准 偏差 。 注 意 ， 使 用 训练 集中 
的 统计 数据 来 缩放 测试 集 。 























注 8: 举例 来 说 ，TensorFlow 的 MNIST 分 类 教程 使 用 softmax_cross_entropy_with_logits 国 数 ，PyTorch 
的 nn.CrossEntropyLoss 则 实际 上 在 其 内 部 计算 softmax 函数 。 
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X_train, X_test 
X_train, X_test 


X_train - np.mean(X_train), X_test - np.mean(X_train) 
Xx_train / np.std(X_train), X_test / np.std(X_train) 


4.3.2 ”模型 


必须 定义 模型 ， 使 每 个 输入 都 有 10 个 输出 ， 即 10 个 类 别 中 的 每 个 类 别 都 对 应 模型 中 的 一 
个 概率 值 。 这 样 一 来 ， 因 为 每 个 输出 都 是 概率 ， 所 以 最 后 一 层 将 为 模型 提供 一 个 sigmoid 
激活 函数 。 关 于 这 些 “ 训 练 技 巧 ” 是 否 真正 增强 了 模型 的 学 习 能 力 ， 为 了 说 明 这 一 点 ， 本 
章 将 使 用 一 个 一 致 性 模型 架构 ， 该 架构 基于 双 层 神经 网 络 ， 其 中 隐藏 层 中 的 神经 元 数量 接 
近 输 入 数量 (784) 和 输出 数量 (10) 的 几何 平均 值 ，89 ~ V784x10 。 

现在 来 看 看 第 一 个 实验 ， 将 经 过 简单 均 方 误差 损失 训练 的 神经 网 络 与 经 过 softmax 交叉 入 
损失 训练 的 神经 网 络 进行 比较 。 你 所 看 到 的 损失 值 是 按 观测 值 进行 显示 的 ， 回 想 一 下 ,， 平 
均 交 又 炉 损 失 的 绝对 损失 值 是 均 方 误差 损失 值 的 3 倍 。 运 行 下 面 的 代码 : 
































model = NeuralNetwork( 
layers=[Dense(neurons=89, 
activation=Tanh()), 
Dense(neurons=10, 
activation=Sigmoid())], 
Loss = MeanSquaredError(), 
seed=20190119) 


optimizer = SGD(0.1) 


trainer = Trainer(model, optimizer) 
trainer.fit(X_train, train_ labels, X_test, test_ labels, 
epochs = 50， 
eval_every = 10， 
seed=20190119 ， 
batch_size=60); 


calc_accuracy_model(model, X_test) 
将 得 到 如 下 结果 : 


Validation loss after 10 epochs is 0.611 
Validation loss after 20 epochs is 0.428 
Validation Loss after 30 epochs is 0.389 
Validation Loss after 40 epochs is 0.374 
Validation Loss after 50 epochs is 0.366 


The model validation accuracy is: 72.58% 


结果 显示 ， 模 型 验证 准确 度 为 72.58%。 接 下 来 测试 本 章 稍 前 得 出 的 结论 ，softmax 交叉 人 
损失 函数 有 助 于 模型 更 快 地 学 习 。 
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4.3.3 实验: softmax 交 又 蚁 损失 函数 
首先 ， 修 改 前 面 的 模型 。 


model = NeuralNetwork( 
layers=[Dense(neurons=89, 
activation=Tanh()), 
Dense(neurons=10， 
activation=Linear())], 
Loss = SoftmaxCrossEntropy()， 
seed=20190119) 














由 于 现在 通过 softmax 函数 将 模型 输出 作为 损失 的 一 部 分 进行 提供 ， 因 此 不 再 需 
要 通过 sigmoid 激活 函数 来 提供 模型 输出 。 








然后 ， 为 模型 运行 50 轮 ， 得 出 以 下 结果 : 


Validation loss after 10 epochs is 0.630 
Validation loss after 20 epochs is 0.574 
Validation Loss after 30 epochs is 0.549 
Validation Loss after 40 epochs is 0.546 
Loss increased after epoch 50, final Loss was 0.546, using the model from epoch 40 


The model validation accuracy is: 91.01% 


模型 验证 准确 度 为 91.01%。 的 确 ， 将 损失 函数 改 为 提供 更 陡 梯 度 的 函数 ， 仪 此 一 点 就 可 以 
极 大 地 提高 模型 的 准确 性 ”| 





当然 ， 不 改变 架构 同样 也 可 以 做 得 更 好 。4.4 节 将 讨论 动量 ， 这 是 对 迄今 为 止 一 直 使 用 的 
随机 梯度 下 降 优化 技术 最 重要 且 最 直接 的 扩展 。 


4.4 动量 


目前 只 使 用 了 一 个 “更 新 规则 ” 人 只 需求 出 损失 相对 于 权重 的 
导数 ， 然 后 将 权重 朝 正 确 的 方向 移动 。 这 意味 着 0ptimizer 类 中 的 _update_rule 函数 看 起 
来 如 下 所 示 : 


update = seLf.Lrx*kwargs['grad '] 
kwargs['param'] -= update 


先 来 理解 为 何 要 扩展 这 个 更 新 规则 并 将 动量 纳入 其 中 。 














注 9: 你 可 能 会 说 ，softmax 交叉 炉 损失 在 这 里 获得 了 “不 公平 的 优势 "， 因 为 softmax 函数 将 其 接收 的 值 归 
一 化 为 1。 均 方 误差 损失 仅 获 得 了 10 个 输入 ， 这 些 输入 已 经 传递 给 sigmoid 函数 且 示 归 一 化 为 1。 但 
是 ， 即 使 将 输入 归 一 化 为 均 方 误差 损失 ， 让 它 对 于 每 个 观测 值 而 言 总 和 都 为 1， 均 方 误差 损失 仍然 比 
softmax 交 又 炉 损 失 要 差 。 
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4.4.1 理解 动量 

回顾 图 4-3， 它 展示 了 单个 参数 的 值 与 神经 网 络 的 损失 值 之 间 的 关系 。 想 象 这 样 一 种 情况 : 
因为 每 次 欠 代 损失 都 会 不 断 减少 ， 所 以 参数 的 值 在 相同 方向 上 就 会 不 断 更 新 。 这 种 情况 类 
似 于 参数 “从 山上 六 下 2 ， 并 且 每 个 时 间 步 长 的 更 新 值 都 类 似 于 参数 的 “速度 "。 但 是 ， 在 
现实 世界 中 ， 物 体 不 会 瞬间 停止 并 改变 方向 ， 那 是 因为 它们 有 具有 动量 (momentum)， 这 只 
是 一 种 简明 扼要 的 说 法 ， 即 物体 在 给 定 瞬间 的 速度 不 仅 是 一 个 作用 在 其 身上 的 力 的 函数 ， 
而 且 是 一 个 基于 其 过 去 昧 积 速度 的 函数 (速度 越 新 则 权重 越 大 )。 这 种 物理 解释 是 将 动量 
应 用 到 权重 更 新 的 动机 。 接 下 来 详细 说 明 。 












































4.4.2 ”在 Optimizer 类 中 实现 动量 

基于 动量 的 参数 更 新 意味 着 ， 每 个 时 间 步 长 的 参数 更 新 将 是 过 去 时 间 步 长 参数 更 新 的 加 权 
平均 值 ， 其 中 权重 呈 指 数 衰减 。 因 此 ， 必 须 选 择 第 二 个 参数 ， 即 动量 参数 ， 它 将 决定 这 种 
衰减 的 程度 。 动 量 参数 的 值 越 大 ， 每 个 时 间 步 长 的 权重 更 新 就 越 基 于 参数 的 累积 动量 ， 而 
不 是 当前 速度 。 


1. 数学 
从 数学 角度 讲 ， 如 果 动 量 参数 为 4， 并 且 每 个 时 间 步 长 的 梯度 为 W ， 则 权重 更 新 为 : 











update =V, 十 ULXxV, + ye xV,, 二 




















如 果 动 量 参数 为 0.9， 则 将 1 个 时 间 步 长 之 前 的 梯度 乘 以 0.9， 将 2 个 时 间 步 长 之 前 的 梯度 
乘 以 0.9% = 0.81， 将 3 个 时 间 步 长 之 前 的 梯度 乘 以 0.9 = 0.729， 以 此 类 推 ， 最 后 将 所 有 这 
些 都 添加 到 当前 时 间 步 长 的 梯度 中 ， 从 而 获取 当前 时 间 步 长 的 整体 权重 更 新 。 








2. 代码 
如 何 实现 呢 ? 在 每 次 更 新 权重 时 都 必须 计算 无 穷 和 吗 ? 


事实 证 明 ， 还 有 一 种 更 巧妙 的 方法 。0ptimizer 类 不 仅 会 在 每 个 时 间 步 长 收 到 一 个 梯度 ， 
还 会 跟踪 记录 一 个 代表 参数 更 新 历史 的 独立 量 。 然 后 ， 我 们 在 每 个 时 间 步 长 上 使 用 当前 梯 
度 来 更 新 这 个 历史 记录 ， 并 根据 该 历史 记录 来 计算 实际 的 参数 更 新 。 由 于 动量 大 致 上 是 基 
于 物理 学 的 类 比 ， 因 此 可 以 称 这 个 量 为 “速度 ”。 





如 何 更 新 速度 ?事实 证 明 ， 可 以 遵循 下 面 两 个 步 又。 


1. 乘 以 动量 参数 。 
2. 增加 梯度 。 


结果 就 是 速度 在 每 个 时 间 步 长 上 取 以 下 3 个 值 ， 从 t= 1 开始 。 
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1，Y， 


2: V， 十 WAXYi 








3. Vs1 


tuxX(V, TAXxVi)=V+TAxV + XY, 





至 此 ， 就 可 以 将 速度 用 作 参 数 更 新 | 然后 ， 可 以 将 其 合并 到 0ptimizer 类 的 一 个 新 子 类 中 ， 
这 个 子 类 叫 作 SGDMomentum 类 ， 它 具有 step 函数 和 _update_rule 国 数 ， 如 下 所 示 : 





def step(seLf) -> None: 





如 果 是 第 一 次 进 代 ， 那 么 初始 化 每 个 参数 的 “速度 ”。 否 则 ， 只 需 应 用 _update_rutLe 国 数 。 


if self.first: 
# 现在 将 在 第 一 次 迭代 中 设置 速度 
self.velocities = [np.zeros_like(param) 
for param in seLf.net.params()] 
self.first = False 





for (param, param grad, velocity) tn zip(self.net.params(), 
seLf .net.param_grads()， 
self.velocities): 
# 将 速度 输入 到 _update_rule 函 数 中 
self._update_rule(param=param, 
grad=param_grad， 
velocity=velocity) 


def Update rule(self, **kwargs) -> None: 


用 动量 更 新 SGD 的 规则 。 

# 更 新 速度 

kwargs['velocity'] *= self.momentum 
kwargs['velocity'] += self.lr * kwargs['grad'] 


# 使 用 这 个 更 新 参数 


kwargs['param'] -= kwargs['velocity'] 





接 下 来 看 一 下 这 个 新 的 优化 器 能 否 改 进 神 经 网 络 的 训练 效果 。 


4.4.3 实验 : 带 有 动量 的 随机 梯度 下 降 
现在 来 基于 MNIST 数据 集训 练 带 有 隐藏 层 的 神经 网 络 ， 这 里 将 optimizer = SGD(lr = 0.1) 
替换 为 optimizer = SGDMomentum(Lr = 0.1，momentum = 0.9)， 其 余 不 做 任何 改变 : 























Validation Loss after 10 epochs is 0.441 
Validation Loss after 20 epochs is 0.351 
Validation Loss after 30 epochs is 0.345 
Validation Loss after 40 epochs is 0.338 
Loss increased after epoch 50, final Loss was 0.338, using the model from epoch 40 


The model validation acCuracy is: 95.51% 





可 以 看 到 ， 损 失明 显 较 低 ， 而 准确 度 明 显 较 高 ， 这 仅仅 是 因为 在 参数 更 新 规则 中 增加 了 
动量 "| 





当然 还 ee s， 这 样 也 能 够 在 每 次 迭代 中 修改 参数 更 新 。 虽 然 可 以 手动 更 改 初 
台 学 习 率 ， 但 也 可 以 使 用 一 些 规则 在 训练 期 间 自 动 降低 学 习 率 。 接 下 来 将 介绍 最 常见 的 
纲 则 。 


4.5 ”学 习 率 衰减 


[ 学 习 率 ] 通常 是 最 重要 的 超 参 数 ， 必 须 确保 已 对 其 进行 优化 。 














A 








Ram 


一 一 Yoshua Bengio, “Practical Recommendations for Gradient-Based 
Training of Deep Architectures”，2012 年 








再 次 回顾 图 4-3， 可 以 看 到 ， 随 着 训练 的 进行 ， 越 来 越 需要 降低 学 习 率 。 虽 然 在 训练 开始 
时 想 “ 加 大 步 长 "， 但 随 着 不 断 迭 代 更 新 权重 ,最终 将 到 达 一 个 点 ， 从 这 个 点 开始 会 “ 跳 
过 ”最 小 值 。 注 意 ， 这 不 一 定 会 成 为 问题 ， 因 为 当 接近 最 小 值 时 ， 权 重 与 损失 之 间 的 关系 
会 “平滑 下 降 ”( 如 图 4-3 所 示 )， 在 这 种 情况 下 ， 梯 度 的 大 小 会 随 着 斜率 的 减 小 而 自动 减 
小 。 尽 管 如 此 ， 这 种 情况 可 能 不 会 发 生 ， 即 使 发 生 了 ， 学 习 率 衰减 也 有 助 于 对 该 过 程 进行 
更 细 粒 度 的 控制 。 


4.5.1 学 习 率 衰减 的 类 型 

学 习 率 衰减 有 多 种 方法 。 最 简单 的 是 线性 衰减 ， 其 中 学 习 率 从 其 初始 值 线性 下 降 到 某 个 最 
终 值 ， 而 实际 的 衰减 则 在 每 轮 结 束 时 实现 。 更 准确 地 说 ， 在 时 间 步 长 t+ 中 ， 如 果 想 要 的 初 
始 学 习 率 是 a ， 而 最 终 学 习 率 是 w., ， 那 么 每 个 时 间 步 长 的 学 习 率 将 是 : 



























































(04 


1 = Qsart 一 (Csart — Cand) 私 


其 中 ,NN 是 总 轮 数 。 


另 一 种 同样 有 效 的 简单 方法 是 指数 豪 减法 ， 在 这 种 方法 中 ， 每 一 轮 的 学 习 率 都 以 恒定 比例 
下 降 。 公 式 如 下 ; 








Q,=Qx0" 


其 中 ，5 满足 以 下 公式 : 











注 10: 在 使 用 当前 批 次 数据 中 的 信息 (除了 梯度 ) 来 更 新 参数 时 ， 动 量 只 是 其 中 一 种 方式 。 另外， 附录 简 
要 介绍 了 其 他 更 新 规则 ， 这 些 更 新 规则 也 可 以 在 本 书 提供 的 Lincoln 库 中 浏览 。 
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Start 





以 上 公式 实现 起 来 很 简单 。 首 先 ， 初 始 化 Optimizer 类 ， 使 其 具有 “最 终 学 习 率 ”finaL_tLr， 
而 初始 学 习 率 将 在 整个 训练 过 程 中 逐渐 衰减 : 











def _ init__(self, 
lr: float = 0.01, 
final_lr: float = 0， 
decay_type: str = 'exponential') 
self.lr = Lr 
self.final_lr = finaL_Lr 
seLf .decay_type = decay_type 





然后 ， 在 训练 开始 时 ， 可 以 调用 _setup_decay 豪 减 函数 ， 该 函数 计算 每 轮 中 学 习 率 的 豪 
量 


seLf .optim. setup_decay() 
这 些 计算 将 实现 刚刚 看 到 的 线性 和 指数 学 习 率 衰减 公式 
def _setup_decay(seLf) -> None: 
if not self.decay_type: 
return 
elif self.decay_type == 'exponential': 


self.decay_per_epoch = np.power(self.final_ lr / self.lr, 
1.0 / (self.max_epochs-1)) 


elif seLf.decay_type == 'linear': 
self.decay_per_epoch = (seLf.Lr - seLf.finaL_Lr) / (self.max_epochs-1) 


接着 ， 在 每 轮 结束 时 ， 实 际 上 都 会 降低 学 习 率 : 
def decay_lr(self) -> None: 


if not self.decay_type: 
return 


if self.decay_type == 'exponential': 
self.lr *= self.decay_per_epoch 


elif seLf.decay_type == 'linear': 
seLf.Lr -= self.decay_per_epoch 


最 后 ， 在 每 轮 的 结尾 ， 在 fit 函数 中 从 Trainer 调用 _decay_tr 函数 : 


if seLf.optim.finaL_Lr: 
self.optim. decay_Lr() 


现在 运行 一 些 实验 ， 检 查 这 些 操作 能 否 改善 训练 效果 。 








4.5.2 ”实验 : 学 习 率 衰减 

接 下 来 ， 党 试 使 用 学 习 率 喜 减 来 训练 相同 的 模型 。 这 里 对 学 习 率 进行 初始 化 ， 让 运行 中 的 
“平均 学 习 率 ”等 于 原 有 学 习 率 (0.1) : 对 于 线性 学 习 率 衰减 ， 将 学 习 率 初始 化 为 0.15， 
然后 将 其 衰减 到 0.05， 对 于 指数 衰减 ， 将 学 习 率 初始 化 为 0.2， 然 后 将 其 衰减 到 0.05。 通 
过 以 下 代码 执行 线性 衰减 ， 


optimizer = SGDMomentum(0.15，momentum=0.9，finaL_Lr=0.05，decay_type='Linear ') 


结果 如 下 所 示 : 


通 


Validation Loss after 10 epochs is 0.403 
Validation Loss after 20 epochs is 0.343 
Validation Loss after 30 epochs is 0.282 
Loss increased after epoch 40, final Loss was 0.282, using the model from epoch 30 


The model validation accuracy is: 95.91% 


过 以 下 代码 执行 指数 衰减 


optimizer = SGDMomentum(0.2, momentum=0.9, final_lr=0.05, decay_type='exponential') 


结果 如 下 所 示 : 





Validation Loss after 10 epochs is 0.461 
Validation Loss after 20 epochs is 0.323 
Validation Loss after 30 epochs is 0.284 
Loss increased after epoch 40, final Loss was 0.284, using the model from epoch 30 


The model validation accuracy is: 96.06% 


在 以 上 实验 中 ,“ 最 佳 模型 ”的 损失 值 分 别 为 0.282 和 0.284， 大 大 低 于 之 前 的 0.338 | 


4.6 方 将 讨论 如 何 更 智能 地 初始 化 模型 的 权重 及 其 背后 的 原因 。 


4.6 ”权重 初始 化 


a 


当 输 入 值 为 0 时 ，sigmoid 和 Tanh 等 激活 函数 的 斜率 最 大 ， 随 着 输入 值 远离 0， 这 些 激 活 























函数 的 曲线 会 迅速 变 得 平坦 。 这 可 能 会 在 一 定 程度 上 限制 它们 的 有 效 性 ， 因 为 如 果 许 多 输 
入 值 都 与 0 相距 较 远 ， 那 么 附加 在 这 些 输入 上 的 权重 将 在 后 向 传递 时 接收 很 小 的 梯度 。 


2 


























实证 明 ， 这 是 神经 网 络 中 的 一 个 主要 问题 。 可 以 参考 MNIST 神经 网 络 中 的 隐藏 层 ， 该 
层 将 接收 784 个 输入 ， 然 后 将 它们 乘 以 权重 和 矩阵， 最 后 得 到 一 定数 量 的 神经 元 (n 个 神经 





元 )， 接 着 有 选择 地 向 每 个 神经 元 都 添加 一 个 偏差 项 。 图 4-8 展示 了 在 神经 网 络 隐藏 层 中 的 


这 nn 





个 值 输入 到 Tanh 激活 函数 前 后 的 分 布 。 
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对 于 具有 784 个 输入 的 隐藏 层 ，Tanh 激 活 函 数 的 输入 分 布 


601 
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对 于 具有 784 个 输入 的 隐藏 情 ，Tanh 激 活 函数 的 输出 分 布 
140 
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4-8: 激活 函数 的 输入 分 布 和 输出 分 布 
在 输入 到 激活 函数 之 后 ， 大 多 数 激 活 值 是 -1 或 11 这 是 因为 每 个 特征 在 数学 上 都 定义 为 : 
f= Wa XX t+ Wgan X X74 +b, 


这 里 初始 化 了 每 个 权重 ， 让 其 具有 方差 1 ( Var(w;)=1 且 Var(b,)=1)， 并 且 对 于 独立 随 
机 变量 Xl 和 X2， 从 Var(x Es X,) = Var(x) + Var(x,) » 可 以 得 到 : 


Var(f,)=785 





它 的 标准 差 ( V785 ) 刚好 超过 28， 这 反映 了 图 4-8 上 半 部 分 显示 的 分 布 情况 。 











这 说 明 上 面 的 操作 有 问题 ， 但 是 问题 仅仅 是 提供 给 激活 函数 的 特征 不 能 “过 于 分 散 ” 吗 ? 
如 果 这 是 问题 所 在 ， 那 么 可 以 简单 地 将 特征 除 以 某 个 值 来 减少 其 差异 。 然 而 ， 这 引出 了 一 
个 显而易见 的 问题 : 如 何 知道 将 除 以 什么 值 ? 答案 是 ， 这 些 值 应 该 根据 输入 到 该 层 的 神经 
元 数量 来 进行 缩放 。 如 果 有 一 个 多 层 神 经 网 络 ， 一 层 有 200 个 神经 元 ， 下 一 层 有 100 个 神 
经 元 ， 那 么 相 比 具有 100 个 神经 元 的 层 ， 具 有 200 个 神经 元 的 层 将 传递 的 值 的 分 布 会 更 
广 。 这 是 不 可 取 的 ， 我 们 不 希望 神经 网 络 在 训练 中 学 习 的 特征 的 规模 取决 于 所 传递 的 特征 
的 数量 ， 同 样 也 不 想 让 神经 网 络 的 预测 依赖 于 输入 特征 的 规模 。 如 有 果 将 特征 中 的 所 有 值 乘 
以 2 或 除 以 2， 那 么 模型 的 预测 结果 不 应 该 受到 影响 。 

















有 几 种 方法 可 以 修正 这 个 问题 。 下 面 将 讨论 最 常用 的 一 种 方法 : 可 以 根据 连接 层 中 的 神经 
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元 数量 调整 权重 的 初始 方差 ， 这 样 在 前 向 传递 过 程 中 传递 给 下 一 层 的 值 和 在 后 向 传递 过 程 
中 传递 给 上 一 层 的 值 具 有 大 致 相同 的 比例 。 同 理 ， 我 们 必须 考虑 后 向 传递 ， 这 是 因为 存在 
同样 的 问题 : 在 反 向 传播 期 间 ， 因 为 这 是 将 梯度 向 后 发 送 的 层 ， 所 以 该 层 接收 的 梯度 的 方 
差 将 直接 取决 于 下 一 层 中 的 特征 数量 。 








4.6.1 数学 和 代码 
如 果 每 一 层 都 有 总 个 传人 神经 元 并 有 ms 个 传 出 神经 元 ， 那 么 在 前 向 传递 过 程 中 ， 每 一 个 
能 保持 结果 特征 方差 不 变 的 权重 的 方差 将 是 ; 











1 





in 


同 理 ， 在 后 向 传递 过 程 中 ， 使 特征 方差 保持 不 变 的 权重 方差 为 : 


























作为 两 者 之 间 的 折 中 方案 ,通常 所 说 的 Glorot 初始 化 "(Glorot initialization) 是 将 每 层 中 的 
权重 方差 初始 化 为 : 
2 


7]in 在 对 





‘out 





对 其 进行 编码 很 简单 ， 在 每 层 中 添加 weight_init 参数 ， 并 在 _setup_layer 函数 中 添加 以 
下 内 容 : 





if self.weight init == "glorot": 
scale = 2/(num in + self.neurons) 
else: 
scale = 1.0 


现在 ， 模 型 如 下 所 示 ， 其 中 为 每 层 指定 weight_init="glorot"。 


model = NeuralNetwork( 
layers=[Dense(neurons=89, 
activation=Tanh(), 
weight_init="glorot"), 
Dense(neurons=10， 
activation=Linear(), 
weight_init="glorot")], 
Loss = SoftmaxCrossEntropy(), 
seed=20190119) 





注 11: 这 个 概念 是 Xavier Glorot 和 Yoshua Bengio 在 2010 年 发 表 的 论文 “Understanding the Difficulty of 
Training Deep Feedforward Neural Networks” 中 提出 的 ， 因 此 得 名 。 
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4.6.2 ”实验 : 权重 初始 化 
运行 4.5.2 节 中 的 模型 ， 但 使 用 Glorot 初始 化 来 初始 化 权重 ， 对 于 具有 线性 学 习 率 衰减 的 
模型 ， 可 以 得 到 如 下 结果 : 

Validation Loss after 10 epochs is 0.352 

Validation Loss after 20 epochs is 0.280 


Validation Loss after 30 epochs is 0.244 
Loss increased after epoch 40, final Loss was 0.244, using the model from epoch 30 


The model validation acCuracy is: 96.71% 


对 于 具有 指数 学 习 率 衰减 的 模型 ， 可 以 得 到 如 下 结果 : 


Validation loss after 10 epochs is 0.305 
Validation loss after 20 epochs is 0.264 
Validation Loss after 30 epochs is 0.245 
Loss increased after epoch 40, final loss was 0.245, using the model from epoch 30 


The model validation accuracy is: 96.71% 


可 以 看 到 ， 损 失 显 著 下 降 ， 从 先前 的 0.282 和 0.284 分 别 下 降 到 0.244 和 0.245 ! 注意 ， 通 
过 所 有 这 些 更 改 ， 并 未 增加 模型 的 大 小 或 训练 时 间 ， 我 们 只 是 赁 直觉 调整 了 训练 过 程 。 
本 章 还 将 介绍 最 后 一 种 技术 。 你 可 能 已 经 注意 到 ， 本 章 使 用 的 所 有 模型 都 不 是 深度 学 习 
模型 。 相 反 ， 它 们 只 是 具有 一 个 隐藏 层 的 神经 网 络 。 这 是 因为 如 果 没 有 4.7 市 将 介绍 的 
dropout 技术 ， 那 么 在 不 发 生 过 拟 合 的 前 提 下 ， 有 效 训练 深度 学 习 模 型 极 具 挑战 性 。 








4.7 dropout 


本 章 展示 了 对 神经 网 络 训练 程序 的 一 些 修改 ， 使 其 越 来 越 接近 全 局 最 小 值 。 你 可 能 已 经 注 
意 到 ， 目 前 本 书 还 没有 尝试 过 看 似 最 显而易见 的 事情 ， 即 在 神经 网 络 中 增加 更 多 的 层 ， 或 
者 为 每 层 增加 更 多 的 神经 元 。 原 因 在 于 ， 在 大 多 数 神经 网 络 架构 中 ， 简 单 地 增加 更 多 “ 火 
力 ” 会 使 神经 网 络 更 难 找到 通用 的 解决 方案 。 尽 管 能 够 增加 神经 网 络 的 容量 ， 使 其 可 以 对 
输入 和 输出 之 间 的 更 复杂 的 关系 进行 建 模 ， 但 也 有 可 能 导致 神经 网 络 找到 一 个 与 训练 数据 
过 拟 合 的 解决 方案 。 在 大 多 数 情 况 下 ，dropout 技术 “可 以 改变 神经 网 络 的 容量 ， 并 降低 发 
生 过 拟 合 的 可 能 性 。 





























4.7.1 定义 

dropout 只 是 简单 地 在 一 层 中 随机 选择 一 定 比例 的 神经 元 P， 并 在 每 次 前 向 传 递 训 练 中 将 它 
们 设置 为 0。 这 个 奇怪 的 技巧 会 改变 神经 网 络 的 容量 ， 但 是 从 经 验 上 讲 ， 它 在 许多 情况 下 
确实 可 以 防止 神经 网 络 过 拟 合 。 这 在 更 深层 的 神经 网 络 中 尤为 突出 ， 其 中 学 习 的 特征 是 从 














注 12: 以 下 简称 dropout。 编者 注 
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原始 特征 中 移 除 的 多 个 抽象 层 。 


尽管 dropout 可 以 帮助 神经 网 络 在 训练 期 间 避 免 过 拟 合 ， 但 我 们 仍然 希望 在 预测 时 给 神经 
网 络 一 个 做 出 正确 预测 的 “最 佳 机 会 *。 因 此 ，Dropout 类 具有 两 种 模式 ， 应 用 了 dropout 
的 训练 模式 和 没有 应 用 dropout 的 推理 模式 。 但 是 ， 这 带 来 了 新 的 问题 : 如 果 后 续 各 层 的 
权重 期 望 值 为 M， 则 它们 将 得 到 的 值 大 小 为 Mx(1-p) 。 因 此 ， 当 在 推理 模式 下 运行 神经 
网 络 时 ， 如 果 要 模拟 这 种 幅度 变化 ， 除 了 删除 dropout， 还 需 将 所 有 值 乘 以 (1 一 p) 。 



































为 了 更 清楚 地 说 明 这 一 点 ， 接 下 来 对 其 进行 编码 。 





4.7.2 ”实现 
可 以 把 dropout 作为 一 个 0peration 类 来 实现 ， 将 其 附加 到 每 一 层 的 末尾 ， 如 下 所 示 : 





class Dropout(Operation) : 


def _ init__(self, 
keep_prob: float = 0.8): 
super().__init__() 
seLf .keep_prob = keep_prob 


def output(self, inference: bool) -> ndarray: 
if inference: 
return self.inputs * self.keep_prob 
else: 
self.mask = np.random.binomial(1, self.keep_prob, 
size=self.inputs.shape) 
return self.inputs * self.mask 


def input_grad(self, output_ grad: ndarray) -> ndarray: 
return output_grad * self.mask 
在 前 向 传递 中 应 用 dropout 时 ， 需 要 保存 一 个 “ 掩 码 ”， 来 表示 被 设置 为 0 的 单个 神经 元 。 
然后 ， 在 后 向 传递 中 ， 将 运算 接收 到 的 梯度 乘 以 该 掩 码 。 这 是 因为 对 于 被 清 零 的 输入 值 ， 
dropout 使 其 梯度 为 0 (因为 现在 更 改 它们 的 值 对 损失 没有 影响 )， 而 其 他 梯度 保持 不 变 。 






































通过 调整 框架 来 适应 dropout 
你 可 能 已 经 注意 到 ，_output 方法 包含 inference 标志 ， 用 于 显示 其 中 是 否 应 用 了 dropout。 
为 了 正确 调用 此 标志 ， 现 在 必须 在 整个 训练 过 程 中 将 其 添加 到 其 他 几 个 位 置 。 




















1. Layer 类 和 NeuralNetwork 类 的 forward 方法 将 inference 作为 参数 (默认 情况 下 为 
Faltse) ， 并 将 该 标志 传递 到 每 个 0peration 类 中 ， 这 样 便 可 以 区 别 每 个 0peration 类 在 
训练 模式 下 的 行为 与 在 推理 模式 下 的 行为 。 

2. 回想 一 下 , 在 Trainer 中 ， 每 隔 eval_every 轮 就 用 测试 集 对 已 训练 的 模型 进行 计算 。 现 
在 ， 每 当 这 样 做 时 ， 都 要 计算 inference 标志 为 True 的 情况 。 























test_preds = self.net.forward(X_test, inference=True) 
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3， 向 Layer 类 添加 dropout 关键 字 。 现 在 Layer 类 的 _init ”方法 的 完整 签名 如 下 所 示 : 





def _ init__(self, 
neurons: int, 
activation: Operation = Linear(), 
dropout: float = 1.0， 
weight_init: str = "standard") 


然后 通过 将 以 下 内 容 添加 到 该 类 的 -setup_Layer 函数 中 来 添加 dropout 运算 : 


if self.dropout < 1.0: 
self .operations.append(Dropout(self.dropout)) 


就 是 这 样 ! 接 下 来 看 一 下 dropout 的 运行 情况 。 





4.7.3 实验 : dropout 


首先 ， 可 以 看 到 ， 将 dropout 添加 到 现 有 模型 中 确实 减少 了 损失 。 在 第 一 层 添 dropout ( 值 
取 0.8)， 这 样 做 将 20% 的 神经 元 设置 为 0， 模 型 如 下 所 示 : 


mnist_soft = NeuralNetwork( 
layers=[Dense(neurons=89, 
activation=Tanh(), 
weight_init="glorot", 
dropout=0.8)， 
Dense(neurons=10， 
activation=Linear(), 
weight_init="glorot")], 
Loss = SoftmaxCrossEntropy()， 
seed=20190119) 


然后 ， 使 用 与 以 前 相同 的 超 参 数 训练 模型 ， 即 指数 权重 从 初始 学 习 率 0.2 衰减 到 最 终 学 习 
率 0.05， 结 果 如 下 : 


与 之 前 看 到 
最 小 损失 。 


Validation loss after 10 epochs is 0.285 
Validation Loss after 20 epochs is 0.232 
Validation Loss after 30 epochs is 0.199 
Validation Loss after 40 epochs is 0.196 


Loss increased after epoch 50, final Loss was 0.196, using the model from epoch 40 


The model validation acCuracy is: 96.95% 





的 相 比 ， 损 失 又 一 次 显著 减少 ， 与 之 前 的 0.244 相 比 ， 该 模型 实现 了 0.196 的 


当 添 加 更 多 层 时 ，dropout 便 真 正 发 挥 作 用 了 。 现 在 将 本 章 一 直 使 用 的 模型 更 改 为 深度 学 习 


模型 ， 














定义 第 一 个 隐藏 层 中 的 神经 元 数量 是 之 前 隐藏 层 中 的 两 倍 〈178) ， 
的 神经 元 数量 则 约 为 之 前 隐藏 层 中 的 二 分 之 一 (46)。 


第 二 个 隐藏 层 中 


这 样 一 来 ， 模 型 如 下 所 示 : 





model = NeuralNetwork( 
Layers=[Dense(neurons=178, 
activation=Tanh(), 
weight_init="glorot", 
dropout=0.8)， 
Dense(neurons=46， 
activation=Tanh(), 
weight_init="glorot", 
dropout=0.8)， 
Dense(neurons=10, 
activation=Linear(), 
weight_init="glorot")], 
Loss = SoftmaxCrossEntropy(), 
seed=20190119) 





注意 ， 前 两 层 应 用 了 dropout。 


使 用 与 以 前 相同 的 优化 喜来 训练 该 模型 ， 可 以 显著 


Validation Loss after 10 epochs is 0.321 
Validation Loss after 20 epochs is 0.268 
Validation Loss after 30 epochs is 0.248 
Validation Loss after 40 epochs is 0.222 
Validation loss after 50 epochs is 0.217 
Validation Loss after 60 epochs is 0.194 
Validation Loss after 70 epochs is 0.191 
Validation Loss after 80 epochs is 0.190 


Validation Loss after 90 epochs is 0.182 
Loss increased after epoch 100， 


The model validation accuracy is: 97.15% 





况 下 训练 相同 模型 的 结果 : 


Validation loss after 
Validation loss after 20 epochs is 0.305 
Validation loss after 30 epochs is 0.262 
Validation loss after 40 epochs is 0.246 


10 epochs is 0.375 


重要 的 是 ， 如 果 设 有 dropout， 那 么 这 种 改善 是 不 


降低 所 获得 的 最 小 损失 并 提高 准确 度 ! 


final Loss was 0.182, using the model from epoch 90 


可 能 实现 的 。 以 下 是 在 没有 droponut 的 情 


Loss increased after epoch 50, final loss was 0.246, using the model from epoch 40 


The model validation accuracy is: 96.52% 











在 没有 dropout 的 情况 下 ， 尽 管 参数 的 数量 和 训练 时 间 都 超过 了 原来 的 两 倍 ， 但 相 比 仅 具 


有 一 个 隐藏 层 的 模型 ， 次 度 学 习 模 型 的 性 能 更 差 ! 这 说 明了 dropout 对 于 有 效 训练 深度 学 
习 模 型 的 重要 性 。 实 际 上 ，dropout 是 2012 年 ImageNet 获奖 模型 的 重要 组 成 部 分 ， 该 模型 











注 13: 有 关 此 方 


Co-adaptation of Feature Detectors” 。 




















开启 了 现代 深度 学 习 时 代 “。 可 以 说 ， 如 果 没 有 dropout， 本 书 就 不 会 出 版 ! 


下 的 更 多 信息 ， 参 见 Geoffrey Hinton 等 人 的 论文 “Improving Neural Networks by Preventing 
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4.8 小结 


本 章 介绍 了 一 些 用 于 改善 神经 网 络 训练 效果 的 常用 技术 ， 内 容 包 括 如 何 理解 这 些 技术 的 工 
作 原 理 及 底层 细节 。 我 在 此 提供 一 份 具 有 普 适 性 的 清单 ， 其 中 列 出 了 有 助 于 提升 神经 网 络 
性 能 的 技术 。 


。 为 权重 更 新 规则 增加 动量 ， 或 其 他 具有 类 似 效果 的 高 级 优化 技术 。 

。 使 用 本 章 介绍 的 线性 衰减 、 指 数 衰 减 ， 或 者 其 他 更 先进 的 技术 (例如 余弦 衰减 )， 实 现 
随时 间 误 减 学 习 率 。 实 际 上 ， 更 有 效 的 学 习 率 计划 不 仅 每 轮 改 变 学 习 率 ， 还 根据 测试 集 
的 损失 来 改变 学 习 率 ， 仅 在 这 种 损失 无 法 减少 时 才 降 低 学 习 率 。 可 以 试 着 把 后 者 作为 一 
个 练习 来 实现 。 

。 确保 权重 初始 化 的 规模 与 层 中 的 神经 元 数量 有 关 (这 在 大 多 数 神经 网 络 库 中 是 默认 实现 的 )。 

。 添加 dropout， 尤 其 是 神经 网 络 连 续 包含 多 个 全 连接 层 的 情况 。 


从 第 5 章 开始 ， 本 书 将 转向 讨论 专门 针对 特定 领域 的 高 级 架构 ， 最 先 讨论 卷 积 神经 网 络 ， 
它 专门 用 于 理解 图 像 数 据 。 加 油 ! 






































第 5 章 


CNN 





本 章 将 介绍 CNN， 即 卷 积 神经 网 络 (convolutional neural network) 。 当 输入 为 图 像 时 ( 神 
经 网 络 被 广泛 应 用 的 一 种 场景 )，CNN 是 用 于 预测 的 标准 神经 网 络 架构 。 在 第 1 ~ 4 章 中 ， 
本 书 仅 专注 于 完全 连接 的 神经 网 络 ， 将 其 实现 为 一 系列 Dense 层 。 在 介绍 本 章 内 容 之 前 ， 
先 来 回顾 一 下 神经 网 络 的 一 些 关 键 要 素 ， 据 此 讨论 对 图 像 使 用 不 同 架构 的 动机 。 然 后 ， 与 
介绍 其 他 概念 类 似 ， 本 章 将 介绍 CNN 的 意义 : 首先 从 整体 上 讨论 它 的 工作 方式 ， 然 后 转 
而 讨论 底层 细节 ， 最 后 通过 从 零 开 始 编码 卷 积 运算 来 详细 说 明 它 的 工作 原理 " 。 通 过 本 章 
的 介绍 ， 你 可 以 对 CNN 的 工作 原理 有 足够 的 了 解 ， 从 而 能 够 使 用 它 来 解决 问题 ， 并 学 习 
ResNet、DenseNet 以 及 Octave 卷 积 等 CNN 的 高 级 变 体 。 


5.1 神经 网 络 与 表征 学 习 

神经 网 络 最 初 接 收 观测 数据 ， 每 个 观测 值 都 由 个 特征 进行 表示 。 目 前 本 书 已 经 展示 了 两 
个 示例 ， 它 们 分 别 属 于 截然 不 同 的 领域 : 第 一 个 是 房价 数据 集 ， 其 中 每 个 观测 值 由 13 个 
特征 组 成 ， 每 个 特征 都 代表 该 房屋 的 数值 属性 ， 第 二 个 是 MNIST 手写 数字 数据 集 。 由 于 
图 像 由 784 像素 ( 宽 为 28 像素、 高 为 28 像素 ) 表示 ， 因 此 每 个 观测 值 都 由 784 来 表示 单 
位 像素 的 明暗 程度 。 















































在 每 种 情况 下 ， 在 对 数据 进行 适当 缩放 后 ， 都 可 以 构建 一 个 模型 ， 从 而 提供 高 准确 度 的 预 
测 结果 。 同 样 在 每 种 情况 下 ， 具 有 一 个 隐藏 层 的 简单 神经 网 络 模型 的 性 能 要 优 于 没有 该 隐 











注 1: 本 章 中 的 代码 虽然 能 够 清楚 地 说 明 CNN 的 工作 原理 , 但 效率 极 低 。 附 录 在 “关于 偏差 项 的 损失 梯度 ” 
中 提供 了 针对 批 处 理 、 多 通道 卷 积 运算 的 一 个 更 高 效 的 实现 ， 本 章 将 使 用 NumPy 库 对 其 进行 描述 。 
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藏 层 的 模型 。 原 因 是 什么 ? 正如 房价 数据 所 显示 的 那样 ， 原 因 之 一 是 神经 网 络 可 以 学 习 输 
入 和 输出 之 间 的 非 线 性 关系 。 但 是 ， 更 普遍 的 原因 是 ， 在 机 器 学 习 中 经 常 需要 原始 特征 的 
线性 组 合 ， 以 便 有 效 地 预测 目标 。 假 设 MNIST 数字 的 像素 值 是 从 x 到 xs， 那 么 可 能 

现 这 样 的 情况 : x 大 于 平均 值 、xis 小 于 平均 值 、xysz 也 小 于 平均 值 ， 这 种 组 合 的 预测 图 像 
将 很 可 能 是 数字 9。 当然 ， 可 能 还 有 许多 其 他 这 样 的 组 合 ， 所 有 这 些 组 合 都 对 图 像 属于 特 
定数 字 的 概率 有 正面 或 负面 的 影响 。 在 训练 过 程 中 ， 神 经 网 络 可 以 自动 发 现 重 要 的 原始 特 
征 组 合 ， 该 过 程 首先 通过 随机 权重 矩阵 乘法 产生 原始 特征 的 初始 随机 组 合 ， 通 过 训练 ， 神 
经 网 络 学 习 有 助 于 优化 的 组 合 而 舍弃 没有 用 的 组 合 。 这 种 学 习 重 要 特征 组 合 的 过 程 称 为 表 
征 学 习 (representation learning)， 这 是 神经 网 络 在 不 同 领 域 取 得 成 功 的 主要 原因 。 图 5-1 
有 助 于 理解 这 个 过 程 。 
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合 ， 有 Vn ~n 个 











图 5-1: 目前 介绍 的 神经 网 络 从 n 个 特征 开始 ， 然 后 在 Vn 和 n 个 特征 的 组 合 中 进行 学 习 ， 从 而 做 出 
预测 


对 于 图 像 数据 ， 是 否 有 任何 理由 修改 此 过 程 ? 答案 为 “是 ”: 在 图 像 中 ， 有 趣 的 “特征 组 
合 ”(〈 像 素 ) 往往 来 自 图 像 中 彼此 靠近 的 像素 。 也 就 是 说 ， 在 整 幅 图 像 中 ， 相 比 3x3 相 邻 
的 像素 块 ，9 个 随机 选择 的 像素 组 合 更 难产 生 有 趣 的 特征 。 这 里 想 利 用 这 个 关于 图 像 数据 
的 基本 事实 : 特征 的 顺序 很 重要 ， 它 显示 了 哪些 像素 在 空间 上 彼此 接近 ， 而 在 房价 数据 
中 ， 特 征 的 顺序 并 不 重要 。 


5.1.1 针对 图 像 数 据 的 不 同 架 构 
总 体 而 言 ， 解 决 方案 就 是 向 前 面 那样 创建 特征 组 合 ， 但 数量 级 更 大 ， 并 且 每 个 特征 都 只 3 
自 输入 图 像 中 的 一 个 小 矩形 块 像素 组 合 ， 如 图 5-2 所 示 。 


























输入 图 像 


针对 图 像 数 据 
的 一 种 新 策略 





7 个 输入 像素 2 ~ 个 原始 特征 的 小 
块 组 合 











图 5-2: 利用 图 像 数 据 ， 可 以 将 每 个 已 学 习 的 特征 定义 为 一 小 块 数据 的 函数 ， 从 而 定义 n 入 个 输 
出 神经 元 之 间 的 某 个 位 置 


让 神经 网 络 学 习 所 有 输入 特征 的 组 合 ， 即 学 习 输 入 图 像 中 所 有 像素 的 组 合 ， 这 样 做 非常 低 
效 。 原 因 是 ， 图 像 的 大 多 数 有 趣 的 特征 组 合 出 现在 小 块 区 域内 。 不 过 ， 至 少 前 文 介绍 的 计 
算 所 有 输入 特征 组 合 的 新 特征 非常 容易 ， 如 果 有 J 个 输入 特征 并 且 想 计算 n 个 新 特征 ， 那 
么 可 以 简单 地 将 包含 输入 特征 的 ndarray 乘 以 一 个 xn 和 矩阵。 要 针对 输入 图 像 计算 局 部 算 
形 块 中 的 像素 组 合 ， 可 以 采用 哪 种 运算 呢 ? 答案 就 是 卷 积 运算 ! 

















5.1.2 ” 卷 积 运算 
在 学 习 卷 积 运算 之 前 ， 先 要 理解 这 句 话 的 含义 :特征 是 来 自 图 像 中 一 个 局 部 块 的 像素 组 
合 。 假 设 有 3 x 3 的 输入 图 像 7， 其 满足 ; 











isl isy iss is4 iss 
然后 ， 假 设 要 计算 一 个 新 特征 ， 该 特征 是 中 间 3 x3 像素 块 的 函数 。 就 像 在 神经 网 络 中 定 
义 的 新 特征 是 旧 特 征 的 线性 组 合 一 样 ， 这 里 将 定义 一 个 新 特征 ， 该 新 特征 是 这 个 3x3 像 
素 块 的 函数 ， 通 过 定义 一 个 3x3 权重 集合 历来 实现 : 


Wil Wi Wi 
Wa Wy Was 


Wa31 W32 Wa3 





W = 





接着 ,获取 丈 与 了 中 相关 块 的 点 积 ， 从 而 得 到 特征 值 。 由 于 所 涉及 的 部 分 以 (3,3) 为 中 心 ， 
因此 将 其 表示 为 (o 代表 “输出 ”) : 








O03 = WX t Wy Xb t WXbat Wi Xb tw Xb3t Wy Xb tw Xt 


Wa X 143 + Wa3 X laa 








这 样 一 来 ， 便 可 以 像 处 理 神经 网 络 中 的 其 他 计算 出 的 特征 一 样 处 理 该 值 : 它 可 能 会 添加 一 
个 偏差 项 ， 可 能 输入 给 一 个 激活 函数 ， 然 后 作为 “神经 元 ”或 “已 学 习 的 特征 ”传递 到 神 
经 网 络 中 后 续 的 层 。 因 此 ， 我 们 可 以 定义 特征 ， 这 些 特征 是 输入 图 像 中 小 块 像素 的 函数 。 

















应 该 如 何 解释 这 些 特征 呢 ? 事实 证 明 ， 以 这 种 方式 计算 出 的 特征 具有 特殊 的 含义 : 表示 由 
权重 定义 的 视觉 模式 是 否 存在 于 图 像 的 对 应 位 置 。 在 计算 机 视觉 领域 ， 当 用 图 像 中 每 个 位 
置 上 的 像素 值 获取 其 点 积 时 ，3 x3 或 5x5 之 类 的 数字 数组 可 以 表示 为 “模式 检测 器 *"， 这 
一 点 早已 为 人 们 所 熟知 。 举 例 来 说 ， 取 以 下 3 x3 数字 数组 的 点 积 : 

















输入 图 像 的 给 定 部 分 将 检测 图 像 在 该 位 置 是 否 存在 边缘 。 已 知 有 类 似 的 矩阵 可 以 检测 是 否 
存在 角 、 是 否 存在 垂直 线 或 水 平 线 等 


现在 假设 使 用 相同 的 权重 集 不 ， 检 测 由 丈 定 义 的 视觉 模式 是 否 存在 于 输入 图 像 中 的 每 个 
位 置 。 可 以 想象 “在 输入 图 像 上 滑动 到 ， 将 丈 的 点 积 与 图 像 每 个 位 置 的 像素 相 乘 ， 最 后 
得 到 一 幅 与 原始 图 像 大 小 几乎 相同 的 新 图 像 O (可 能 略 有 不 同 ， 具 体 取决 于 处 理 边缘 的 方 
式 )。 该 图 像 O 将 是 一 种 “特征 图 ”， 它 显示 输入 图 像 中 由 下定 义 的 模式 所 在 的 位 置 。 实 
际 上 ， 这 种 运算 就 是 在 CNN 中 发 生 的 。 我 们 称 之 为 卷 积 运算 (convolution operation)， 其 
输出 称 为 特征 图 (feature map ) 。 


卷 积 运算 是 CNN 的 核心 。 前 几 章 介绍 了 大 量 有 关 0peration 类 的 内 容 ， 在 向 其 中 引入 
CNN 之 前 ， 还 必须 为 CNN 添加 另 一 个 维度 。 

































































5.1.3 多 通道 卷 积 运算 

CNN 与 常规 神经 网 络 的 不 同 之 处 在 于 ， 它 创建 了 更 多 数量 级 的 特征 ， 并 且 每 个 特征 都 只 是 
一 小 块 输入 图 像 的 函数 。 现 在 可 以 得 到 更 具体 的 结果 : 从 个 输入 像素 开始 ， 刚 刚 描述 的 
卷 积 运算 将 创建 个 输出 特征 ， 每 个 特征 对 应 输入 图 像 中 的 一 个 位 置 。 在 神经 网 络 的 卷 积 
Layer 类 中 ， 执 行 的 操作 又 更 深 了 一 层 : 创建 /个 集合 ， 每 个 集合 包含 n 个 特征 ， 每 个 特 
征 具 有 一 组 对 应 的 (初始 随机 ) 权重 集 ， 这 些 权重 定义 了 一 种 视觉 模式 ， 其 在 输入 图 像 中 
的 每 个 位 置 上 的 检测 将 被 捕获 到 特征 图 中 。 这 里 的 了 个 特征 图 将 通过 了 个 卷 积 运算 来 创建 ， 
如 图 5-3 所 示 。 



























































注 2: 可 以 在 Wikipedia 上 搜索 “Kernel (image processing)" ， 浏 览 更 多 示例 。 
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输入 图 像 特征 图 





7 个 输入 像素 (神经 元 ) 7 个 输 昌 


像素 (神经 元 ) 


整个 过 程 重复 次 ， 产 生 ! 个 总 的 “特征 图 ”或 等 效 
”的 mxf 个 输出 神经 元 。 每 个 特征 图 都 来 自 一 组 权重 
图 5-3: 对 于 具有 n 像素 的 输入 图 像 ， 我 们 定义 了 具有 f 个 特征 图 的 输出 ， 每 个 特征 图 的 大 小 与 原始 图 
像 大 致 相同 ， 因 此 该 图 像 总 共有 n xf 个 输出 神经 元 ， 每 一 个 仅 是 原始 图 像 的 一 小 块 像素 的 函数 


丁 介绍 了 许多 概念 ， 现 在 来 明确 一 下 它们 的 定义 。 虽 然 由 一 组 特定 的 权重 检测 到 的 每 个 
“特征 集 ” 都 称 为 特征 图 ， 但 在 卷 积 Layer 类 的 上 下 文中 ， 特 征 图 的 数量 叫 作 该 Layer 类 的 
通道 《channel) 数 ， 因 此 与 该 Layer 类 相关 的 运算 称 作 多 通道 卷 积 运算 。 另 外 ，/ 组 权重 
W 叫 作 卷 积 过 滤器 (convolutional filter) 或 者 内 核 (kernel) 。 


5.2 ” 卷 积 层 


了 解 多 通道 卷 积 运算 之 后 ， 可 以 考虑 如 何 将 该 运算 合并 到 神经 网 络 层 中 。 以 前 ， 神 经 网 络 
层 相 对 简单 : 它们 接收 二 维 ndarray 作为 输入 ， 并 生成 二 维 ndarray 作为 输出 。 但 是 ， 根 
据 前 文 的 描述 ， 卷 积 层 将 具有 一 个 三 维 ndarray 作为 单 幅 图 像 的 输出 ， 这 3 个 维度 包括 通 
道 数 “x 图 像 高 度 x 图 像 宽度 。 


这 就 引申 出 了 一 个 问题 : 如 何 将 这 个 ndarray 向 前 传递 到 另 一 个 卷 积 层 ， 从 而 创建 一 个 
“深度 卷 积 ”神经 网 络 ” 前 文 已 经 介绍 了 如 何在 具有 单个 通道 和 过 滤器 的 图 像 上 执行 卷 积 
运算 ,那么 就 像 将 两 个 卷 积 层 串 在 一 起 时 所 执行 的 运算 ， 如 何 才 能 在 具有 多 个 通道 的 输入 
上 执行 多 通道 卷 积 运算 呢 ? 搞 清 这 个 问题 是 理解 深度 卷 积 神经 网 络 的 关键 。 


考虑 具有 全 连接 层 的 神经 网 络 。 在 第 一 个 隐藏 层 中 ， 假 设 广 个 特征 是 输入 层 中 所 有 原始 特 
征 的 组 合 。 在 随后 的 层 中 ， 由 于 特征 是 上 一 层 的 所 有 特征 的 组 合 ， 因 此 可 能 有 为 个 特征 ， 
相当 于 原始 特征 的 “特征 的 特征 ”。 为 了 创建 下 一 层 的 亡 个 特征 ， 使 用 久 x 户 个 权重 来 表示 
每 组 的 户 个 特征 是 上 一 层 中 每 组 万 个 特征 的 函数 。 


























如 5.1 市 所 述 ， 在 CNN 的 第 一 层 中 发 生 了 这 样 一 个 过 程 : 使 用 m, 个 卷 积 过 滤器 将 输入 图 
像 转 换 为 m 个 特征 图 。 该 层 的 输出 应 该 能 够 说 明 ， 在 输入 图 像 的 每 个 位 置 处 是 否 存 在 由 























注 3: 与 “特征 图 ”相同 。 























mi 个 过 滤器 的 权重 表示 的 mi 个 视觉 模式 。 正 如 全 连接 神经 网 络 的 不 同 层 可 以 包含 不 同 数 
量 的 神经 元 一 样 ，CNN 的 下 一 层 可 以 包含 m, 个 过 滤器 。 为 了 使 神经 网 络 能 够 学 习 复杂 的 
模式 ， 每 个 模式 的 解释 应 当 是 : 在 图 像 的 该 位 置 处 ， 是 否 存在 由 上 一 层 的 mi 个 视觉 模式 
的 组 合 所 表示 的 每 一 个 “模式 的 模式 ”或 高 阶 视觉 特征 。 这 意味 着 如 果 卷 积 层 的 输出 是 形 
状 为 wm 个 通道 数 x 图 像 高 度 x 图 像 宽度 的 三 维 ndarray， 则 对 于 任意 m 个 特征 图 ， 其 
中 给 定位 置 的 图 像 是 一 个 线性 组 合 ， 该 线性 组 合 会 将 mi 个 过 滤器 卷 积 到 上 一 层 的 对 应 m1 
个 特征 图 中 的 所 有 相同 位 置 。 这 样 一 来 ， 对 于 任意 m, 个 过 滤器 图 ， 其 中 的 每 个 位 置 都 可 
以 表示 为 先前 卷 积 层 中 已 经 学 习 的 mi 个 视觉 特征 的 组 合 。 





























5.2.1 ”实现 意义 


在 理解 两 个 多 通道 卷 积 层 的 连接 原理 后 ， 这 个 运算 便 容易 理解 了 ， 正如 需要 及 x 如 个 权重 
将 具有 加 个 神经 元 的 全 连接 层 连接 到 具有 加 个 神经 元 的 层 一 样 ， 需 要 nxm, 个 卷 积 过 滤 
器 将 具有 mm 个 通道 的 卷 积 层 连接 到 具有 mm 个 通道 的 层 。 因 此 ， 现 在 可 以 指定 ndarray 的 
维度 ， 这 些 维度 将 构成 完整 的 多 通道 卷 积 运算 的 输入 、 输 出 和 参数 。 
1 输入 将 具有 以 下 形状 。 

。 批 次 大 小 

。 输入 通道 
图 像 高 度 
图 像 宽度 
2. 输出 将 具有 以 下 形状 。 

。 批 次 大 小 

。 输出 通道 
图 像 高 度 
图 像 宽度 
3， 卷 积 过 滤器 本 身 将 具有 以 下 形状 。 
。 输入 通道 
。 输出 通道 
， 过 滤器 高 度 
， 过 滤器 宽度 

每 个 神经 网 络 库 的 维度 顺序 可 能 不 同 ， 但 上 述 4 个 维度 始终 存在 。 
































在 本 章 稍 后 实现 卷 积 运算 时 ， 请 牢记 以 上 要 点 。 
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5.2.2” 卷 积 层 与 全 连接 层 的 区 别 
本 章 稍 前 粗略 地 讨论 了 卷 积 层 与 全 连接 层 的 区 别 。 在 了 解 卷 积 层 的 更 多 细节 后 ， 再 来 看 看 
这 个 对 比 ， 如 图 5-4 所 示 。 















































全 连接 导 
0 0 
0 0 
0 0 
个 神经 开 个 六 元 
如, 个 神经 元 维度 为 nw ni 个 神经 元 
的 权重 从 阵 
卷 积 层 
A 
大 个 将 征 区 人 
(x 像 高 x 像 宽 ) 个 神经 元 (x 像 高 x 像 宽 ) 个 神经 元 











图 5-4: 卷 积 层 与 全 连接 层 的 区 别 
此 外 ， 这 两 种 层 还 有 一 个 区 别 ， 那 就 是 单个 神经 元 本 身 的 解释 方式 .。 
。 对 全 连接 层 的 神经 元 来 说 ， 它 检测 在 当前 观测 结果 中 是 否 存 在 由 上 一 层 学 到 的 特征 的 特 


定 组 合 。 
。 对 卷 积 层 的 神经 元 来 说 ， 它 检测 在 输入 图 像 的 给 定位 置 处 是 否 存 在 由 上 一 层 学 习 的 视觉 
模式 的 特定 组 合 。 


在 将 这 样 的 层 合并 到 神经 网 络 中 之 前 ， 还 需要 解决 男 一 个 问题 ， 对 于 获得 的 多 维 ndarray 
输出 ， 如 何 使 用 它们 进行 预测 ? 


5.2.3 利用 卷 积 层 进行 预测 : FLatten 层 

前 文 对 卷 积 层 进 行 了 大 致 介绍 ， 包 括 如 何 学 习 表示 图 像 中 是 否 存在 视觉 模式 的 特征 并 将 这 
些 特征 存储 到 特征 图 中 ， 那 么 如 何 使 用 特征 图 进行 预测 呢 ? 在 第 4 章 中 ， 当 使 用 完全 连接 
的 神经 网 络 预测 图 像 所属 的 具体 类 别 时 ， 只 需 确保 最 后 一 层 的 维 数 为 10。 然 后 ， 可 以 将 这 
10 个 数字 输入 到 softmax 交 又 炉 损失 函数 中 ， 确 保 它们 被 处 理 为 概率 。 现 在 需要 和 弄 清楚 在 
卷 积 层 中 执行 的 运算 ， 在 这 一 层 中 有 一 个 三 维 ndarray 对 应 每 次 观测 ， 这 些 观测 值 的 形状 
为 m 个 通道 x 像 高 x 像 宽 。 



























































回想 一 下 ， 每 个 神经 元 仅仅 代表 在 图 像 中 的 给 定位 置 处 是 否 存在 特定 的 视觉 特征 组 合 。 如 
果 这 是 一 个 深度 卷 积 神经 网 络 ， 则 可 能 是 特征 的 特征 或 特征 的 “特征 的 特征 "。 相 比 将 完 
全 连接 的 神经 网 络 应 用 于 该 图 像 ， 在 这 两 种 情况 下 所 学 到 的 特征 是 一 样 的 : 第 一 个 全 连接 
层 将 表示 单个 像素 的 特征 ， 第 二 个 全 连接 层 将 表示 这 些 特征 的 特征 ， 以 此 类 推 。 在 全 连接 
架构 中 ， 只 需 将 神经 网 络 所 学 习 到 的 每 一 个 “特征 的 特征 ”简单 地 视 为 一 个 神经 元 ， 就 可 
以 将 其 用 作 预 测 图 像 所 属 类 别 的 输入 。 























事实 证 明 ， 可 以 使 用 CNN 实现 同样 的 操作 。 将 m 个 特征 图 视 为 mximagerson Ximagewianm 个 
神经 元 ， 并 使 用 Flatten 运算 将 这 3 个 维度 (通道 数 、 像 高 、 像 宽 ) 压缩 成 一 维 向 量 ， 然 
后 可 以 使 用 简单 的 矩阵 乘法 进行 最 终 预测 。 之 所 以 能 够 这 样 做， 是 因为 每 个 神经 元 在 根本 
上 都 代表 与 全 连接 层 中 的 神经 元 相同 的 “事物 "， 有 具体 来 说 ， 就 是 给 定 的 视觉 特征 或 特征 
组 合 是 否 存 在 于 图 像 中 的 给 定位 置 处 。 因 此 ， 可 以 在 神经 网 络 的 最 后 一 层 以 同样 的 方式 处 
理 它们 “。 






































本 章 稍 后 会 介绍 如 何 实现 Flatten 层 。 但 是 ， 在 深入 研究 实现 方法 之 前 ， 先 来 讨论 另 一 种 
层 ， 尽 管 本 书 不 会 详细 介绍 ， 但 是 它 在 许多 CNN 架构 中 非常 重要 。 














5.2.4 池 化 层 
在 CNN 中 ， 另 一 种 常用 的 层 是 池 化 层 (pooling layer)。 它 对 卷 积 运算 创建 的 每 个 特征 图 
进行 降 采 样 (downsample)。 对 于 最 常用 的 大 小 为 2 的 了 地 ， 在 最 大 池 的 情况 下 ， 这 涉及 将 
每 个 特征 图 的 所 有 2 x2 段 映 射 到 该 段 的 最 大 值 ， 同 理 ， 在 平均 池 的 情况 下 ， 则 映射 到 该 
段 的 平均 值 。 然 后 ， 对 于 n xn 图像， 这 将 把 整 幅 图 像 映射 到 大 小 为 了 x 了 的 图 像 。 图 5-5 


区 此 进行 j 说 胡 。 
最 大 池 5 6 
WL 


平均 池 3.5 4.25 
9 汉 


5-5: 输入 为 4x 4 的 最 大 池 和 平均 池 的 示意 图 。 每 个 2 x 2 块 都 映射 到 该 像素 块 的 平均 值 或 最 大 值 

































































注 4: 这 也 说 明了 理解 卷 积 运算 的 输出 很 重要 ， 因 为 它 既 要 创建 多 个 过 滤器 图 (比方 说 m 个 )， 又 要 创建 
MXimagenssh Ximagewian 个 独立 神经 元 。 就 像 整 个 神经 网 络 一 样 ， 关 键 是 要 一 次 在 头脑 中 掌握 对 多 个 
层次 的 解释 ， 同 时 看 到 它们 之 间 的 联系 。 
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池 化 的 主要 优点 是 计算 能 力 : 通过 对 图 像 进行 降 采 样 ， 使 其 包含 的 像素 数 为 上 一 层 的 ， 
池 化 让 权重 的 数量 和 训练 神经 网 络 所 需 的 计算 量 减少 了 1° 如 果 在 神经 网 络 中 使 用 多 个 池 
化 层 (如 CNN 时 期 在 许多 架构 中 使 用 的 池 化 层 )， 则 这 可 能 会 进一步 得 到 简化 。 当 然 ， 池 
化 的 缺点 是 只 能 从 降 采 样 的 图 像 中 提取 了 的 信息 。 然 而 ， 尽管 使 用 了 池 ， 这 种 架构 在 图 像 
识别 基准 测试 中 仍 表现 出 非常 强 的 性 能 ， 这 一 事实 表明 ， 即 使 池 化 通过 降低 图 像 分 辩 率 导 
致 神经 网 络 “丢失 了 图 像 信 息 "， 但 在 提高 计算 速度 方面 的 权衡 是 值得 的 。 尽 管 如 此 ， 许 
多 人 认为 池 化 只 是 一 个 碰巧 奏效 但 可 能 应 该 被 废除 的 技术 。 正 如 Geoffrey Hinton 于 2014 
年 所 写 :“ 在 卷 积 神经 网 络 中 使 用 池 化 运算 是 一 个 大 错误 ， 而 它 运行 得 很 好 这 一 事实 是 一 
场 灾难 。 ”实际 上 ，ResNet 等 最 新 的 CNN 架构 尽 可 能 不 使 用 池 或 者 根本 不 使 用 池 。 因 此 ， 
本 书 不 会 实现 池 化 层 ， 但 是 考虑 到 内 容 的 完整 性 以 及 它 在 推广 CNN 方面 所 扮演 的 重要 角 
色 (通过 在 AlexNet 等 著名 架构 中 的 应 用 )， 本 书 在 此 对 它 进行 了 介绍 。 


在 图 像 之 外 应 用 CNN 

到 目前 为 止 ， 本 书 对 于 使 用 神经 网 络 处 理 图 像 的 所 有 描述 都 非常 标准 : 图 像 通 常 表示 为 m 
个 像素 通道 ( mi =1 表示 黑白 图 像 ，m, =3 表示 彩色 图 像 )， 然 后 对 每 个 通道 应 用 m, 个 卷 
加 运算 (如 前 所 述 ， 使 用 mxm, 个 过 滤器 图 )， 并 且 这 种 模式 会 持续 进行 几 层 。CNN 的 其 
他 处 理 方法 都 涵盖 了 上 述 内 容 ， 但 有 一 点 较 少 提 及 ， 那 就 是 将 数据 组 织 到 通道 中 ， 然 后 使 
用 CNN 处 理 这 些 数据 ， 这 不 仅仅 局 限于 图 像 。 例 如 ， 这 种 数据 表示 是 AlphaGo 系列 程序 
的 关键 ， 这 些 程序 表明 神经 网 络 可 以 学 习 下 围棋 。 可 以 参考 以 下 论文 节选 内 容 “: 

























































































神经 网 络 的 输入 是 由 17 个 二 进 制 特 征 平面 组 成 的 19x19x17 图 像 栈 。8 个 特征 
平面 闷 由 二 进 制 值 组 成 ， 表 示 当 前 玩家 的 棋子 。 如 果 交 又 点 工 在 时 间 步 长 了 和 包 
含 玩家 颜色 的 棋子 ， 则 员 =1; 如 果 交 叉 点 为 空 ， 或 者 包含 对 手 棋 子 ， 又 或 者 
f<0， 则 有 于 =0。 另 外 8 个 特征 平面 届 ， 表 示 对 手 棋子 的 相应 特征 。 最 后 一 个 
特征 平面 C 表示 要 下 棋子 的 颜色 ， 如 果 要 下 黑色 棋子 ， 则 其 值 为 常量 1; 如果 
要 下 和 白色 棋子 ， 则 其 值 为 常量 0。 这 些 平面 被 连接 在 一 起 ， 从 而 给 出 输入 特征 
S54 二 革 ,, 了 ,站 ,1,7 1,…, 芝 ,1,7 了 7;C 。 历 史 特 征 “ X,Y ”很 重要 ， 因 为 这 里 禁止 重 
复 ， 所 以 仅 从 当前 的 棋子 出 发 对 围棋 而 言 是 不 可 观测 的 。 同 理 ， 因 为 围棋 的 贴 目 
(komi) 也 是 不 可 观测 的 ， 所 以 颜色 特征 C 也 很 重要 。 





换 句 话说 ，AlphaGo 系列 程序 本 质 上 将 棋盘 表示 为 具有 17 个 通道 且 大 小 为 19 像素 x 19 像 
素 的 “图 像 ”! 它们 使 用 其 中 的 16 个 通道 对 每 个 玩家 之 前 进行 的 8 次 移动 进行 了 编码 。 
这 是 必要 做 法 ， 这 样 一 来 ， 对 于 避免 连续 重复 移动 的 规则 ， 就 可 以 进行 编码 。 第 17 个 通 














注 5: 参见 何 恺 明 等 人 于 2017 年 发 表 的 关于 ResNet 的 原始 论文 “Deep Residual Learning for Image Recognition”。 
注 6: 参见 DeepMind (David Silver 等 人 ) 于 2017 年 发 表 的 论文 “Mastering the Game of Go Without Human 
Knowledge” 。 











道 实际 上 是 一 个 19 x 19 的 网 格 , 全 为 1 或 全 为 0, 具体 取决 于 要 移动 的 目标 。CNN 及 其 多 
通道 卷 积 运算 通常 应 用 于 图 像 ， 但 更 普遍 的 做 法 是 用 多 个 通道 来 表示 沿 某 个 空间 维度 排列 
的 数据 ， 这 点 甚至 适用 于 图 像 之 外 的 场景 。 


但 是 ， 要 真正 理解 多 通道 卷 积 运算 ， 必 须 从 零 开始 实现 它 。 接 下 来 详细 描述 这 个 过 程 。 


[| AM \ ~ Me 
5.3 ”实现 多 通道 卷 积 运算 
事实 证 明 ， 如 果 首 先 考 虑 一 维 的 情况 ， 那 么 看 似 复杂 的 运算 (包含 一 个 四 维 输入 ndarray 
和 一 个 四 维 参数 ndarray) 实现 起 来 会 更 加 清晰 。 从 这 个 起 点 开始 构建 完整 的 运算 主要 是 
要 添加 一 系列 for 循环 ， 整 个 过 程 将 采用 第 1 章 介 绍 的 方法 ， 穿 插 介 绍 示 意图 、 数 学 和 可 
运行 的 Python 代码 。 


5.3.1 前 回 传 递 
从 概念 上 看 ， 一 维 卷 积 与 二 维 卷 积 相同 : 将 一 维 输入 和 一 维 卷 积 过 滤器 作为 输入 ， 然 后 通 
过 沿 输入 滑动 过 滤器 来 创建 输出 。 

















输入 : [4, 6, 63, 6, 4s] 
假设 输入 长 度 为 5， 并 且 要 检测 的 “模式 ”的 长 度 是 3， 如 下 所 示 。 
过 滤器 : [w, W,， ww] 


1. 数学 
将 输入 的 第 一 个 元 素 与 过 滤器 进行 卷 积 ， 来 创建 输出 的 第 1 个 元 素 : 


输出 特征 O fw 二 no 二 nn 





将 过 滤器 向 右 滑动 一 个 单位 并 将 其 与 序列 中 的 下 一 组 值 进行 卷 积 ， 可 以 创建 输出 的 第 2 个 
元 素 : 


输出 特征 0,: bw + 二 tn 





到 目前 为 止 ， 进 展 都 很 顺利 。 但 是 ， 当 计算 下 一 个 输出 值 时 ， 可 以 看 到 已 经 没有 空间 了 : 


输出 特征 O;: hw + + 二 

















注 7: DeepMind 使 用 一 个 类 似 于 国际 象棋 的 表示 法 发 布 了 结果 。 仅 有 这 一 次 ， 为 了 对 更 复杂 的 国际 象棋 规 
则 集 进 行 编码 ， 输 入 具有 119 个 通道 ! 参见 DeepMind (David Silver 等 人 ) 于 2018 年 发 表 的 论文 “A 
General Reinforcement Learning Algorithm That Masters Chess, Shogi, and Go Through Self-Play 。 
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现在 已 经 到 达 了 输入 的 末尾 ,一 开始 有 5 个 输入 ， 但 输出 结果 只 有 3 个 元 素 。 如 何 解决 这 
个 问题 呢 ? 


2. 填充 

为 了 避免 因 卷 积 运算 而 导致 输出 缩小 ， 这 里 将 引入 一 个 贯穿 CNN 的 技巧 : 在 输入 的 边缘 
“填充 ” 零 ， 让 输出 与 输入 保持 相同 的 大 小 。 否 则 ， 如 前 所 述 ， 每 次 在 输入 上 卷 积 过 滤器 
时 ， 都 会 得 到 一 个 比 输入 稍 小 的 输出 。 



































从 前 面 的 卷 积 示例 中 ， 可 以 得 出 这 样 的 结论 : 对 于 大 小 为 3 的 过 滤器 ， 为 了 让 输出 与 输入 
的 大 小 相同 ， 边 缘 周围 应 该 有 1 个 填充 单元 。 更 具体 地 说 ， 由 于 几乎 总 是 使 用 奇数 个 过 小 
器 ， 因 此 对 于 填充 数量 ， 其 大 小 就 是 过 滤器 大 小 除 以 2 后 得 到 的 整数 部 分 。 




















填充 之 后 ， 输 入 就 不 再 是 从 五 到 六 ， 而 是 从 i 到 is ， 其 中 和 i 都 是 0。 卷 积 的 输出 可 以 
这 样 计算 : 
Oo = 训 XWi 十 X 二 十 记 XX 二 
以 此 类 推 ， 直 到 输出 的 大 小 与 输入 的 大 小 相同 : 
oj =i XW ti xWw +i x 
那么 ， 访 如何 编码 呢 ? 


3. 代码 
这 一 部 分 的 代码 编写 起 来 非常 简单 。 在 开始 编码 之 前 ， 先 总 结 要 点 。 


(1) 最 终 希 望 生成 与 输入 大 小 相同 的 输出 。 
(2) 要 在 不 “缩小 ”输出 的 情况 下 完成 此 操作 ， 首 先 需 要 填充 输入 。 
(3) 必须 编写 某 种 遍历 输入 的 循环 ， 并 利用 过 滤器 对 每 个 输入 进行 卷 积 。 





下 面 将 从 输入 和 过 滤器 开始 : 





input_1d 
param_1d 


np.array([1,2,3,4,5]) 
np.array([1,1,1]) 


以 下 辅助 函数 可 以 在 每 一 端 填充 一 维 输入 : 





def pad_1d(inp: ndarray, 
num: int) -> ndarray: 
z = np.array([0]) 
z = Np.repeat(z, Num) 
return np.concatenate([z, inp, z]) 


_pad_1d(input_1d, 1) 


array( [Os 1 Zi Bn dy. Ses 0.1]) 
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注意 ， 对 于 要 生成 的 输出 中 的 每 个 元 素 ， 在 所 填充 的 输入 中 都 有 一 个 对 应 的 元 素 ， 在 那里 
“开始 ” 卷 积 运算 。 一 旦 和 弄 清 楚 卷 积 运算 的 位 置 ， 只 需 人 循环 遍历 过 滤器 中 的 所 有 元 素 ， 对 
每 个 元 素 执行 乘法 运算 ， 然 后 将 结果 汇总 起 来 。 


如 何 找到 这 个 “对 应 元 素 ” 呢 ? 很 简单 ， 注 意 ， 第 一 个 输出 元 素 从 所 填充 输入 的 第 一 个 元 
素 开 始 获取 值 ! 这 样 一 来 ，for 循环 非常 容易 编写 : 








def conv_1d(inp: ndarray， 
param: ndarray) -> ndarray: 


# 正确 断言 维度 
assert dim(inp, 1) 
assert_dim(param, 1) 


# 填充 输入 

param_Len = param.shape[0] 
param_mid = param_Len // 2 
input_pad = _pad_1d(inp, param_mid) 





# 初始 化 输出 


out = np.zeros(inp.shape) 


# 执行 一 维 卷 积 
for o in range(out.shape[0]): 
for p in range(param_Len) : 
out[o] += param[p] * input_pad[o+p] 


# 确保 形状 没有 改变 


assert_same_shape(inp, out) 
return out 
conv_1d_sum(input_1d, param_1d) 


array(l Bs 67y Qis Ys 39]) 


这 个 过 程 很 简单 。 在 继续 进行 此 运算 的 后 向 传递 〈 坏 手 的 部 分 ) 之 前 ， 简 要 讨论 一 下 关于 
卷 积 的 一 个 被 忽略 的 超 参数 ， 步 幅 。 


4. 关于 步 幅 的 注意 事项 

如 前 所 述 ， 池 化 运算 是 从 特征 图 中 对 图 像 进行 降 采 样 的 一 种 方法 。 在 许多 早期 的 卷 积 架 构 
中 ， 在 不 对 计算 准确 度 造成 任何 重大 影响 的 情况 下 ， 池 化 确实 显著 地 减少 了 所 需 的 计算 
量 。 不 过 ， 它 现在 不 再 受 欢 迎 ， 正 是 因为 它 有 效 地 对 图 像 进行 了 降 采样 ， 才 导致 传送 到 下 
一 层 的 图 像 只 有 一 半分 辩 率 。 


还 有 一 种 应 用 更 广泛 的 方法 ， 那 就 是 修改 卷 积 运算 的 步 幅 (stride)， 即 过 滤器 在 图 像 上 逐 
渐 请 动 的 量 。 前 面 的 示例 所 使 用 的 步 幅 是 1， 即 每 个 过 滤器 都 与 输入 的 每 个 元 素 进行 卷 积 ， 
这 样 输 出 最 终 就 可 以 与 输入 的 大 小 相同 。 当 步 幅 为 2 时 ， 过 滤器 将 与 输入 图 像 的 每 两 个 元 
素 进 行 卷 积 ， 这 样 输出 大 小 将 是 输入 的 一 半 。 如 果 步 幅 为 3， 则 过 滤器 将 与 输入 图 像 的 每 
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3 个 元 素 进 行 卷 积 ， 以 此 类 推 。 这 意味 着 ， 对 于 使 用 大 小 为 2 的 池 与 使 用 大 小 为 2 的 步 幅 ， 
它们 在 计算 量 方面 会 减少 相同 的 量 ， 节 会 产生 大 小 相同 的 输出 ， 但 后 者 不 会 损失 太 多 的 信 
妨 。 对 于 大 小 为 2 的 池 ， 输入 中 只 有 亏 的 元 素 会 影响 输出 ， 而 当 步 幅 为 2 时 ,输入 中 的 
每 个 元 素 都 会 对 输出 有 一 定 的 影响 。 因 此 ， 即 使 在 当今 最 先进 的 CNN 架构 中 ， 使 用 步 幅 
(大 于 1) 也 比 使 用 字 化 进行 降 采 样 要 普遍 得 多 。 


























不 过 ， 本 书 仅 展示 步 幅 为 1 的 示例 ， 至 于 如 何 修改 这 些 运算 ， 以 实现 步 幅 大 于 1， 你 可 以 
自行 练习 。 当 然 ， 使 用 大 小 为 1 的 步 幅 也 使 编写 后 向 传递 更 为 容易 。 


5.3.2 ”后 向 传递 


在 卷 积 运算 中 ， 后 向 传递 比较 环 手 。 回 顾 在 后 向 传递 过 程 中 要 执行 的 操作 : 5.3.1 市 使 用 输 
入 和 参数 生成 了 卷 积 运算 的 和 输出， 现在 需要 进行 以 下 计算 。 




















损失 相对 于 卷 积 运算 的 每 个 输入 元 素 的 偏 导 数 〈 之 前 ， 输 入 为 inp)。 
损失 相对 于 每 个 过 滤器 元 素 的 偏 导 数 (之 前 ， 过 滤器 为 param_1d) 。 


第 3 章 介 绍 过 Param0peration 类 的 工作 方式 。 在 backward 方法 中 ，Param0peration 类 接 
收 一 个 输出 梯度 ， 表 示 输 出 的 每 个 元 素 最 终 对 损失 的 影响 程度 ， 然 后 使 用 此 输出 梯度 来 计 
算 输 入 和 参数 的 梯度 。 因 此 ， 需 要 编写 一 个 函数 ， 该 函数 接受 形状 与 输入 相同 的 输出 梯度 
(output_grad) ， 并 生成 输入 梯度 (input_grad) 和 参数 梯度 (param_grad)。 





如 何 测试 计算 出 的 梯度 是 否 正确 呢 ? 这 里 将 从 第 1 章 中 找到 答案 在 一 个 求 和 公式 中 ， 每 
个 元 素 相对 于 其 输出 的 偏 导数 都 为 1， 即 如 果 s=a+b+c ， 则 有 = 可 =ac 1。 因此 ， 
可 以 使 用 _input_grad 函数 和 _param_grad 国 数 〈 稍 后 将 介绍 并 编写 ) 以 及 output_grad 
(所 有 元 素 都 是 1) 来 计算 input_grad 和 param_grad。 然 后 以 一 定 的 量 a 改变 输入 元 素 ， 


检查 这 些 梯度 是 否 正确 ， 并 查看 得 到 的 和 的 变化 量 是 否 等 于 梯度 乘 以 a 。 


1. 梯度 “应 该 ”是 多 少 
现在 使 用 刚才 描述 的 逻辑 ， 来 计算 输入 梯度 向 量 中 的 元 素 : 

















def conv_1d_sum(inp: ndarray， 
param: ndarray) -> ndarray: 
out = conv_1d(inp, param) 
return np.sum(out) 


# 随机 选择 将 第 5 个 元 素 加 1 
input_1d 2 = np.array([1,2,3,4,6]) 
param_1d = np.array([1,1,1]) 


print(conv_1d_sum(input_1d, param_1d)) 
print(conv_1d_sum(input_1d_ 2, param_1d)) 


3950 
41.0 





第 5 个 元 素 的 梯度 应 该 是 41-39= 2 。 
接 下 来 看 一 下 如 何 计算 这 样 一 个 梯度 ， 而 不 是 简单 地 计算 两 个 和 之 差 。 


2. 计算 一 维 卷 积 的 梯度 
可 以 看 到 ， 增 加 输入 元 素 会 使 输出 的 元 素数 量 加 2。 仔 细 观 察 输 出 ， 可 以 清楚 地 理解 这 个 
过 程 : 





Output :[ tow +tw, +tw,S O, 
tw +tw, 十 六 一， 








tw +hw, +tiw, SO, 








bw ttiw, +tsw,S Os 





tw +tw, +tow] SO; 
输入 元 素 # 在 输出 中 出 现 了 两 次 。 
作为 CO， 的 一 部 分 ， ts 乘 以 WW o 
作为 0O; 的 一 部 分 ， ts 乘 以 1 o 


注意 ， 如 果 存 在 0; ， 则 也 将 乘 以 w ， 从 而 增加 输出 ， 这 一 点 有 助 于 了 解 输 入 映射 到 输 
出 总 和 的 通用 模式 。 





eoL 
因此 ， 最 终 影响 损失 的 量 将 为 (可 以 将 其 表示 为 地 ) : 








当然 ， sae 子 中 ， 当 损失 仅 为 总 和 时 ， 输 出 中 (除了 数量 为 0 的 “填充 ”元 
素 ) 所 有 元 素 满足 他 -=1。 这 个 总 和 很 容易 计算 : 它 就 是 Ww+W， 因 为 w, ==1， 所 以 
总 和 是 2。 名 


3. 通用 模式 

现在 寻找 输入 元 素 的 通用 模式 。 事 实证 明 ， 这 是 跟踪 索引 的 一 种 练习 。 由 于 这 里 将 数学 
转换 为 代码 ， 因 此 使 用 os™ 表示 输出 梯度 的 第 i 个 元 素 (最 终 将 通过 output_grad[i] 来 访 
问 )。 这 样 便 能 得 到 : 














=0 xw, +o xw,+o xw, 
Ots 
仔细 观察 这 个 输出 ， 可 以 得 出 类 似 的 结论 
Bm tor XW, + oF x Ww 
t 





OL 
_ grad grad 
一 =oO xW,+o4 


6 


d 
xW, +o xW 


显然 存在 一 个 模式 ， 但 把 它 转换 成 代码 有 点 环 手 ， 特 别 是 这 里 在 输出 索引 增加 的 同时 ， 权 
重 索引 却 在 减少 。 尽 管 如 此 ， 仍 然 可 以 借助 双 层 for 循环 来 实现 : 


# param: 示例 中 形状 为 (1,3) 的 ndarray 
# param_Len: 整数 3 
# inp: 示例 中 形状 为 (1,5) 的 ndarray 
# input_grad: 形状 始终 与 inp 相 同 的 ndarray 
# output_pad: 示例 中 形状 为 (1,7) 的 ndarray 
for o in range(inp.shape[0]): 

for p in range(param.shape[0]): 

input_ grad[o] += output_pad[o+param_Len-p-1] * param[p] 








这 样 可 以 适当 增加 权重 索引 ， 同 时 减少 输出 上 的 权重 。 


管 现 在 可 能 尚 不 明显 ， 但 是 通过 计算 来 理解 这 一 点 的 确 是 计算 卷 积 运算 梯度 最 为 棘手 的 
部 分 。 如 果 继 续 增 加 复杂 性 ， 比 如 批 次 大 小 、 具 有 二 维 输 入 的 卷 积 或 具有 多 个 通道 的 输入 
等 ， 那 么 只 需要 在 前 几 行 中 添加 更 多 的 for 循环 ， 本 章 稍 后 会 介绍 这 一 点 。 

参 


如 果 增 加 过 滤器 中 某 元 素 的 值 ， 那 么 可 以 用 类 似 的 方法 来 计算 输出 值 的 增加 情况 。 将 过 滤 
器 的 第 一 个 元 素 (或 其 他 元 素 ) 增加 一 个 单位 ， 观 察 其 对 总 和 的 影响 : 




















input_1d = np.array([1,2,3,4,5]) 
# 随机 选择 将 第 1 个 元 素 加 1 
param_1d 2 = np.array([2,1,1]) 


print(conv_1d_sum(input_1d, param_1d)) 
print(conv_1d_sum(input_1d, param_1d_2)) 


39.0 
49.0 


和 10 
可 以 看 到 ，B 10 。 


正如 对 输入 所 做 的 那样 ， 仔 细 检 查 输出 ， 查 看 过 滤器 中 对 其 产生 影响 的 元 素 ， 同 时 填充 输 
入 ， 这 样 可 以 更 清楚 地 观察 模式 : 














ad rad ad d ad 
WE 二 有 和 XO8 +t Xo BE +fs Xo 


grad 
Ht, XoO3 5 





tty Xo 
对 于 总 和 ， 由 于 所 有 os 元 素 均 为 1， 且 如 为 0， 因 此 可 以 得 到 : 
We =f +h +h thy =1+2+3+4=10 


这 证 实 了 前 面 的 计算 结果 。 





5. 编写 代码 
相 比 对 输入 梯度 进行 编码 ， 这 次 编码 较为 容易 ， 因 为 这 一 次 “索引 褒 同 一 方向 移动 "。 在 
同一 个 租 套 for 循环 中 ， 代 码 为 下 面 这 种 形式 : 











# param: 示例 中 形状 为 (1,3) 的 ndarray 
# param_grad: 和 param 形 状 相 同 的 ndarray 
# inp: 示例 中 形状 为 (1,5) 的 ndarray 
# input_pad: 形状 为 (1,7) 的 ndarray 
# output_grad: 示例 中 形状 为 (1,5) 的 ndarray 
for o in range(inp.shape[0]): 

for p in range(param.shape[0]): 

param_grad[p] += input_pad[o+p] * output_grad[o] 




















最 后 ， 可 以 将 这 两 个 计算 结合 起 来 ， 编 写 一 个 函数 来 同时 计算 输入 梯度 和 过 滤器 梯度 ， 相 
关 步 又 如 下 。 


. 将 输入 和 过 滤器 作为 参数 。 
.计算 输出 。 
. 填充 输入 和 输出 的 梯度 ， 也 就 是 说 获取 input_pad 和 output_pad。 
.如 前 所 示 ， 使 用 填充 的 输出 梯度 和 过 滤器 来 计算 输入 梯度 。 

同样 ， 使 用 输出 梯度 (未 填充 ) 和 填充 的 输入 来 计算 过 滤器 梯度 。 


本 书 的 随 书 文件 提供 了 包括 以 上 代码 块 的 完整 函数 。 


以 上 就 是 对 一 维 卷 积 的 实现 ， 接 下 来 将 这 种 计算 扩展 到 二 维 输入 、 批 量 二 维 输入 和 多 通道 
批量 二 维 输入 。 不 必 担 心 ， 这 些 过 程 都 非常 简单 。 





大 一 











5.3.3 ” 批 处 理 
要 处 理 批量 二 维 输入 ， 先 要 为 这 些 卷 积 函 数 添 加 功能 ， 其 第 一 维 表示 输入 的 批 次 大 小 ， 第 
二 维 表 示 一 维 序 列 的 长 度 : 








input_1d_batch = np.array([[0,1,2,3,4,5,6]， 
[25354;556.71]) 





可 以 遵循 之 前 定义 的 步骤 : 首先 填充 输入 ， 使 用 它 来 计算 输出 ， 然 后 填充 输出 梯度 来 计算 
输入 梯度 和 过 滤器 梯度 。 


1. 批量 进行 一 维 卷 积 : 前 向 传递 

当 输入 具有 代表 批 次 大 小 的 第 二 个 维度 时 ， 实 现 前 向 传递 的 唯一 区 别 是 必须 分 别 填充 和 计 
算 每 个 观测 值 的 输出 (和 之 前 一 样 )， 然 后 针对 结果 应 用 stack， 以 获得 一 批 输出 。 举 例 来 
说 ，conv_1d 函数 将 变 成 下 面 这 样 。 























def conv_1d batch(inp: ndarray， 
param: ndarray) -> ndarray: 
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outs = [conv_1d(obs，param) for obs in inp] 
return np.stack(outs) 


2. 批量 进行 一 维 卷 积 : 后 向 传递 
后 向 传递 过 程 与 前 向 传递 过 程 类 似 : 现在 只 需要 使 用 for 循环 来 计算 输入 梯度 ， 为 每 个 观 
测 值 计 算 该 结果 ， 然 后 执行 stack 操作 : 

# input_grad 是 包含 前 述 for 循 环 的 函数 

# 它 接受 一 个 一 维 输入 ， 一 个 一 维 过 滤器 和 一 个 一 维 output_gradient， 并 计算 input_grad 


grads = [_input_grad(inp[i], param, out_grad[i])[1] for 1 in range(batch_size)] 
np.stack(grads) 





当 处 理 一 批 观测 值 时 ， 过 污 器 的 梯度 有 点 不 同 。 这 是 因为 过 滤器 会 与 输入 中 的 每 个 观测 值 
进行 卷 积 ， 从 而 连接 到 输出 中 的 每 个 观测 值 。 因 此 ， 要 计算 参数 梯度 ， 必 须 循环 遍历 所 有 
的 观测 值 ， 并 在 这 个 过 程 中 适当 增加 参数 的 梯度 值 。 不 过 ， 这 只 需要 在 代码 中 添加 一 个 外 
部 for 循环 ， 计 算 前 面 看 到 的 参数 梯度 : 


# param: 示例 中 形状 为 (1,3) 的 ndarray 
# param_grad: 和 param 形 状 相 同 的 ndarray 
# inp: 示例 中 形状 为 (1,5) 的 ndarray 
# input_pad: 形状 为 (1,7) 的 ndarray 
# output_grad: 示例 中 形状 为 (1,5) 的 ndarray 
for i in range(inp.shape[0]): # inp.shape[0] = 2 
for o in range(inp.shape[1]): # inp.shape[0] = 5 
for p in range(param.shape[0]): # param.shape[0] = 3 
param_grad[p] += input_pad[i][o+p] * output_grad[i][o] 






































在 原始 的 一 维 卷 积 之 上 添加 新 维度 确实 很 简单 。 同 样 ， 将 其 从 一 维 输入 扩展 到 二 维 输入 也 
很 简单 。 


5.3.4 二 维 卷 积 
二 维 卷 积 是 对 一 维 卷 积 的 直接 扩展 。 从 根本 上 说 ， 在 二 维 场 景 的 每 个 维度 中 ， 输 入 通过 过 滤 
器 连接 到 输出 的 方式 与 一 维 场景 相同 。 因 此 ， 前 向 传递 和 后 向 传递 的 总 体 步 又 均 保 持 不 变 。 


(1) 前 向 传递 


。 适当 填充 输入 。 
。 使 用 所 填充 的 输入 和 参数 来 计算 输出 。 


(2) 在 后 向 传递 中 计算 输入 梯度 


。 适当 填充 输出 梯度 。 
。 使 用 所 填充 的 输出 梯度 以 及 输入 和 参数 ， 来 计算 输入 梯度 和 参数 梯度 。 

















(3) 在 后 向 传递 中 计算 参数 梯度 


。 适当 填充 输入 。 
。 遍历 所 填充 的 输入 的 元 素 ， 并 在 这 个 过 程 中 适当 增加 参数 梯度 。 


1. 二 维 卷 积 : 对 前 向 传递 进行 编码 
为 了 让 这 一 点 具体 化 ， 可 以 回顾 一 维 卷 积 中 的 相关 操作 。 在 一 维 卷 积 中 ， 给 定 前 向 传递 中 
的 输入 和 参数 ， 用 于 计算 输出 的 代码 如 下 所 示 : 








# input_pad: 根据 param 的 大 小 进行 适当 填充 的 输入 版 本 





out = np.zeros_like(inp) 
for o in range(out.shape[0]): 


for p in range(param_len): 
out[o] += param[p] * input_pad[o+p] 


对 于 二 维 卷 积 四， 只 需 ; 将 其 修改 为 : 


# input_pad: 根据 param 的 大 小 进行 适当 填充 的 输入 版 本 




















out = np.zeros_like(inp) 


for o_w in range(img_size): # 遍历 像 高 
for o_h in range(img_size): # 遍历 像 宽 
for p_w in range(param_size): # 遍历 参数 宽 
for p_h in range(param_size): # 遍历 
out[o_w][o_h] += param[p_w][p_h] 


时 中 
号 邳 





EE 


号 度 
> 数 高 
人 


put_pad[o_w+p_w][o_h+p_h] 
可 以 看 到 ， 后 者 只 是 简单 地 将 单个 for 循环 变 成 了 两 个 for 循环 。 


当 拥有 一 批 图 像 时 ， 对 于 二 维 的 扩展 也 与 一 维 场景 类 似 : 如 前 所 述 ， 只 是 在 此 处 所 示 的 循 
环 外 部 添加 了 一 层 for 循环 。 


2. 二 维 卷 积 : 对 后 向 传递 进行 编码 
可 以 肯定 的 是 ， 与 前 向 传递 中 的 一 样 ， 可 以 对 后 向 传递 使 用 与 一 维 场景 相同 的 索引 。 回 想 
一 下 ， 在 一 维 场景 中 ， 代 码 为 : 














input_ grad = np.zeros_like(inp) 
for o in range(inp.shape[0]): 


for p in range(param_len): 
input_grad[o] += output_pad[o+param_Len-p-1] * param[p] 


在 二 维 场景 中 ， 代 码 也 很 简单 : 


# output_pad: 根据 param 的 大 小 进行 适当 填充 的 输出 版 本 


input_grad = np.zeros_like(inp) 








注意 ， 
码 : 


for i w in range(img width): 
for i_h in range(img_ height): 
for pw in range(param_size): 
for p_h in range(param_size): 
input_grad[i _w][i_h] += 
output_pad[i_w+param_size-p_w-1][i_h+param_size-p_h-1] \ 
* param[p_w][p_h] 


输出 上 的 索引 与 一 维 场景 类 似 ， 只 是 应 用 到 了 二 维 场景 中 。 这 是 一 维 场景 中 的 代 





output_pad[i+param_size-p-1] * param[p] 


是 二 维 场 景 中 的 代码 : 


output_pad[i_w+param_size-p_w-1][i_h+param_size-p_h-1] * param[p_w][p_h] 


一 维 场 景 中 的 其 他 情况 同样 适用 于 以 下 两 种 场景 。 














(1) 对 于 一 批 输 入 图 像 ， 只 需 对 每 个 观测 值 执行 前 面 的 运算 ， 然 后 针对 结果 执行 stack 操作 。 
(2) 对 于 参数 梯度 ， 必 须 遍 历 批 次 中 的 所 有 图 像 ， 并 将 每 幅 图 像 中 的 组 件 添 加 到 参数 梯度 中 


至 此 ， 我 们 几乎 已 经 为 完整 的 多 通道 卷 积 运算 编写 了 了 代码。 当前， 代码 在 二 维 输入 上 卷 积 
过 滤器 并 生成 二 维 输出 。 当 然 ， 正 如 前 面 所 描述 的 ， 每 个 卷 积 层 不 仅 有 沿 这 两 个 维度 排列 
的 神经 元 ， 而 且 具 有 一 定数 量 的 “通道 "， 甚 数量 与 该 层 创建 的 特征 图 的 数量 相同 。 下 下 











的 适当 位 置 。 


input_pad: 根据 param 的 大 小 进行 适当 填充 的 输入 版 本 
param_grad = np.zeros_like(param) 


for i in range(batch size): # equal to inp.shape[0] 
for ow in range(img_size): 
for o_h in range(img size): 
for pw in range(param_size): 
for p_h in range(param_size): 
param_grad[p_w][p_h] += input_pad[i][o_w+p_w][o_h+p_h] \ 
* output_grad[i][o_w][o_h] 
























































便 来 解决 这 个 最 后 的 挑战 。 


5.3.5 ”最 后 一 个 元 素 : 通道 





在 输入 和 输出 都 有 多 个 通道 的 情况 下 ， 如 何 修改 前 面 所 写 的 内 容 呢 ? 答案 很 简单 ， 就 像 之 


前 添加 批 次 时 一 样 ， det em AA eas hain 
个 循环 用 于 输出 通道 遍历 输入 通道 和 输出 通道 的 所 有 组 合 ， 可 以 根据 需要 使 每 个 输 


























注 8: 关于 这 些 内 容 的 全 部 实现 ， 可 以 从 图 灵 社 区 下 载 本 章 相关 资源 ，ituring.cn/book/2759。 一 一 编者 注 
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出 特征 图 成 为 所 有 输入 特征 图 的 组 合 


为 此 ， 必 须 始 终 将 图 像 表示 为 三 维 ndarray， 而 不 是 一 直 使 用 的 二 维 数组 。 下 面 用 一 
道 表示 黑白 图 像 ， 并 用 三 个 通道 表示 彩色 图 像 (一 个 表示 图 像 中 每 个 位 置 的 红色 值 ， 一 个 
表示 蓝 色 值 ， 一 个 表示 绿色 值 )。 然 后 ， 无 论 通道 数量 如 何 ， 运 算 都 会 按照 前 面 描述 的 那 


样 进 行 ， 


络 中 更 远 





























从 图 像 中 创建 许多 特征 图 ， 每 个 特征 图 都 是 由 图 像 中 所 有 道道 《如 果 处 理 神 经 网 
的 层 ， 则 来 自 上 一 层 中 的 通道 ) 产生 的 卷 积 的 组 合 








0 


鉴于 上 述 


def 


def 











兄 ， 给 定 输入 和 参数 的 四 维 ndarray， 用 于 计算 卷 积 层 输出 的 完整 代码 如 下 所 示 : 


_Compute_output_obs(obs: ndarray, 
param: ndarray) -> ndarray: 
bs: [channels, img width, img_height] 
param: [in_channels, out_channels, param width, param_height] 
assert_dim(obs, 3) 
assert_dim(param, 4) 


param_size = param.shape[2] 
param_mid = param_size // 2 
obs_pad = _pad_2d_channeL(obs，param_mid) 


in_channels = fil.shape[0] 
out_channels = fil.shape[1] 
img_size = obs.shape[1] 


out = np.zeros((out channels,) + obs.shape[1:]) 
for c_in in range(in channels): 
for c_out in range(out_channels): 
for ow in range(img_size): 
for o_h in range(img_size): 
for pw in range(param_size): 
for p_h in range(param_size): 
out[c_out][o_w][o_h] += \ 
param[c_in][c_out][p_w][p_h] 
* obs_pad[c_in][o_w+p_w][o_h+p_h] 
return out 


_output(inp: ndarray, 
param: ndarray) -> ndarray: 
obs: [batch_size, channels, img width, img_height] 
param: [in_channels, out_channels, param width, param_height] 


outs = [_compute output obs(obs, param) for obs in inp] 


return np.stack(outs) 


注意 ，_pad_2d_channet 是 沿 通道 维度 填充 输入 的 函数 。 
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同样 ， 执 行 计算 的 实际 代码 与 前 面 所 示 的 二 维 场景 


(没有 通道 ) 中 的 代码 相似 ， 但 


因为 在 





过 滤器 数组 中 多 了 两 个 维度 和 c_out x c_in 个 元 素 ， 所 以 现在 有 了 fiL[c_out][c_in][p_w] 
[p_h] ， 而 不 是 fil[p_w][p_h]。 


2. 后 向 传递 





后 向 传递 与 二 维 场景 中 的 后 向 传递 相似 ， 并 且 遵 循 相同 的 原则 。 


。 对 于 输入 梯度 ， 


























分 别 计算 每 个 观测 值 的 梯度 为 此 填充 输出 梯度 )， 然 后 针对 梯度 执行 


stack 操作 。 

。 将 填充 的 输出 梯度 用 于 参数 梯度 ， 但 是 也 会 循环 遍历 观测 值 ， 并 取 每 个 观测 值 的 适当 值 
来 更 新 参数 梯度 。 

是 计算 输出 梯度 的 代码 : 
def compute grads_obs(input_obs: ndarray， 


def 


output_grad_obs: ndarray， 
param: ndarray) -> ndarray: 
input_obs: [in_channels, img width, img_height] 
output_grad_obs: [out_channels, img width, img_height] 
param: [in_channels, out_ channels, img width, img_height] 
input_grad = np.zeros_like(input_obs) 
param_size = param.shape[2] 
param_mid = param size // 2 
img_size = input_obs.shape[1] 
in_channels = input_obs.shape[0] 
out_channels = param.shape[1] 
output_obs_pad = _pad_2d_channeL(output_grad_obs，param_mid) 


for c_in in range(in_channels): 
for c_out in range(out_channels): 
for i w in range(input_obs.shape[1]): 
for i_h in range(input_obs.shape[2]): 
for p_w in range(param size): 
for p_h in range(param_size): 
input_grad[c_in][iw][i_h] += \ 
output_obs_pad[c_out][i w+tparam_size-p_w-1] 
[i_h+param_size-p_h-1] \ 
* param[c_in][c_out][p_w][p_h] 
return input_grad 


_input_grad(inp: ndarray， 
output_grad: ndarray, 


param: ndarray) -> ndarray: 


grads = [_compute_grads_obs(inp[i], output grad[i], param) for i in 
range(output_grad.shape[0])] 


return np.stack(grads) 
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这 是 计算 参数 梯度 的 代码 : 


def param grad(inp: ndarray, 
output_grad: ndarray, 
param: ndarray) -> ndarray: 
inp: [in_channels, img width, img_height] 
output_grad_obs: [out_channels, img width, img_height] 
param: [in_channels, out_channels, img width, img_height] 
param_grad = np.zeros_like(param) 
param_size = param.shape[2] 
param_mid = param size // 2 
img_size = inp.shape[2] 
in_channels = inp.shape[1] 
out_channels = output_grad.shape[1] 


inp_pad = _pad_conv_input(inp, param_mid) 
img_shape = output_grad.shape[2:] 


for i in range(inp.shape[0]): 
for c_in in range(in_channels): 
for c_out in range(out_ channels): 
for ow in range(img_shape[0]): 
for o_h in range(img_shape[1]): 
for pw in range(param size): 
for p_h in range(param_ size): 

param_grad[c_in][c_out][p_w][p_h] += \ 
inp_pad[il][c_in][o_w+p_w][o_h+p_h] \ 
* output grad[i][c_out][o_w][o_h] 

return param_grad 


_output 函数 、_input_grad 函数 和 _param_grad 函数 正 是 创建 二 维 卷 积 运算 所 需要 的 ， 它 
们 最 终 将 构成 CNN 中 使 用 的 conv20D 层 的 核心 ! 在 将 此 0peration 类 用 于 CNN 之 前 ,还 有 
一 些 细 市 问题 需要 解决 。 


5.4 使 用 多 通道 卷 积 运算 训练 CNN 

我 们 还 需要 实现 以 下 3 项 操作 ， 才 能 拥有 一 个 有 效 的 CNN 模型 。 

1. 必须 实现 本 章 前 面 讨论 的 Flatten 运算 ， 这 对 确保 模型 能 够 进行 预测 很 关键 。 

2， 必 须 将 此 0peration 类 以 及 Conv2D 运算 合并 到 Conv2D 层 中 。 

3. 要 使 这 些 运 算 可 用 ， 还 必须 编写 更 快 版 本 的 Conv2D 和 运算。 这 里 对 此 进行 概述 ， 附 了 录 中 
的 “ 德 阵 链 式 法 则 ”将 详细 给 出 相关 信息 。 





5.4.1 Flatten 运 算 


要 完成 卷 积 层 ， 还 需要 另 一 个 0peration 类 ， 即 Flatten 运算 。 卷 积 运 算 的 输出 是 每 个 观 
测 值 的 三 维 ndarray， 这 3 个 维度 分 别 为 channels、img_height、img_width。 但 是 ， 除 非 




















大 
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将 这 些 数据 传递 到 另 一 个 卷 积 层 ， 否 则 首先 需要 将 每 个 观测 值 转换 为 一 个 向 量 。 幸 运 的 
是 ， 对 于 图 像 中 相应 位 置 是 否 存在 特定 视觉 特征 ， 所 有 相关 的 神经 元 都 进行 了 编码 ， 因 此 
可 以 简单 地 将 此 三 维 ndarray“ 局 平 化 ”(flatten) 为 一 维 向 量 并 向 前 传递 ， 这 样 做 不 会 有 
任何 问题 。 这 里 展示 的 FLatten 运算 可 以 实现 这 一 点 ， 这 说 明 在 卷 积 层 中 〈 与 其 他 任何 层 
一 样 )，ndarray 的 第 一 个 维度 始终 是 批 次 大 小 : 




















class Flatten(Operation): 
def _ init__(self): 
super().__init__() 


def output(self) -> ndarray: 
return self.input.reshape(self.input.shape[0], -1) 


def input_grad(self, output_ grad: ndarray) -> ndarray: 
return output_grad.reshape(self.input. shape) 


那 是 需要 的 最 后 一 个 0peration 类 ， 接 下 来 将 所 有 0peration 类 包装 在 一 个 Layer 类 中 。 


5.4.2 ”完整 的 Conv2D 层 
完整 的 卷 积 层 如 下 所 示 : 


class Conv2D(Layer): 





def _ init__(self, 
out_channels: int, 
param_size: int, 
activation: Operation = Sigmoid(), 
flatten: bool = False) -> None: 
super().__init__() 
self.out channels = out_channels 
self.param_ size = param_size 
self.activation = activation 
self.flatten = flatten 


def _setup_layer(self, input_: ndarray) -> ndarray: 


self.params = [] 

conv_param = np.random.randn(self.out_channels, 
input_.shape[1], # input channels 
self.param_ size, 
self.param_size) 

self .params.append(conv_param) 


self.operations = [] 
self .operations.append(Conv2D(conv_param) ) 


seLf .operations.append(seLf .activation) 


if self.flatten: 
seLf .operations.append(FLatten()) 


return None 
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为 了 进行 预测 ， 根 据 该 层 输出 的 预期 传递 方向 ， 即 另 一 个 卷 积 层 (向 前 传递 ) 或 者 一 个 全 
连接 层 ， 可 以 选择 是 否 在 末尾 添加 Flatten 运算 。 


关于 速度 的 说 明 以 及 替代 实现 

所 有 熟悉 计算 复杂 性 的 人 都 知道 ， 这 部 分 代码 编写 起 来 特别 费时 间 : 为 了 计算 参数 梯度 ， 
需要 编写 7 个 租 套 for 循环 ! 虽然 从 零 开始 编写 卷 积 运算 的 目的 是 巩 国 对 CNN 工作 方式 
的 理解 ， 但 是 可 以 用 完全 不 同 的 方式 来 编写 ， 无 须 像 本 章 所 述 的 那样 分 解 这 个 过 程 ， 可 以 
将 它 分 解 为 下 面 3 个 步骤 。 














1. 对 于 输入 ， 从 测试 集中 提取 大 小 为 filter_height x filter_width 的 ;image_height x 
image_width x num_channels 个 块 。 

2. 对 于 每 个 块 ， 使 用 将 输入 通道 连接 到 输出 通道 的 合适 过 滤器 对 块 进行 点 积 运 算 。 

3. 堆 全 并重 塑 所 有 这 些 点 积 的 结果 ， 从 而 形成 输出 。 


还 有 一 种 更 便捷 的 方法 ， 那 就 是 使 用 批 处 理 算 阵 乘法 来 表达 上 述 几 乎 所 有 的 运算 ， 它 可 以 
通过 NumPy 库 中 的 np.matmul 函数 来 实现 。 附 录 对 如 何 执行 此 运算 进行 了 详细 的 说 明 ， 本 
书 的 随 书 文件 也 对 此 进行 了 实现 ” 这些 内 容 说 明了 可 以 编写 相对 较 小 的 CNN, 从 而 在 合理 
的 时 间 内 完成 训练 。 实 际 上 ， 可 以 运行 实验 来 查看 CNN 的 运行 情况 ! 









































5.4.3 ”实验 

即使 使 用 通过 重 塑 和 np.matmul 函数 定义 的 卷 积 运算 ， 仅 用 一 个 卷 积 层 的 话 ， 也 大 约 需 要 
10 分 钟 才能 完成 一 轮训 练 。 因 此 ， 这 里 仅 限于 演示 只 有 一 个 卷 积 层 的 模型 ， 该 模型 具有 
32 个 通道 (其 他 数字 亦 可 ) : 

















model = NeuralNetwork( 
Layers=[Conv2D(out_channeLs=32， 
param_size=5, 
dropout=0.8， 
weight_init="glorot", 
flatten=True, 
activation=Tanh()), 
Dense(neurons=10， 
activation=Linear())], 
Loss = SoftmaxCrossEntropy(), 
seed=20190402) 





注意 ， 该 模型 在 第 一 层 中 只 有 800 个 参数 ( 32x5x5=800 )， 但 是 这 些 参数 用 于 创建 
25 088 个 神经 元 (32x28x28=25 088 )， 也 可 以 叫 作 “学 习 特 征 ”*"。 相 比 之 下 ,一 个 具有 
32 个 隐藏 层 的 全 连接 层 将 有 25 088 个 参数 ( 784x32=25 088 )， 同 时 只 有 32 个 神经 元 。 








我 们 通过 几 百 个 具有 不 同学 习 率 的 批 次 来 训练 该 模型 ， 并 观察 由 此 产生 的 验证 损失 。 在 这 

















注 9: 也 可 以 从 图 灵 社 区 下 载 : ituring.cn/book/2759。 一 一 编者 注 
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个 过 程 中 ， 一 些 简单 的 试 错 结 果 表 明 ， 由 于 第 一 层 是 卷 积 层 而 不 是 全 连接 层 ， 因 此 0.01 的 
学 习 率 要 优 于 0.1 的 学 习 率 。 使 用 优化 器 SGDMomentum(Lr = 0.01，momentum=0.9)， 将 这 个 
神经 网 络 训练 一 轮 ， 可 以 得 到 以 下 结果 : 








Validation accuracy after 100 batches is 79.65% 
Validation accuracy after 200 batches is 86.25% 
Validation accuracy after 300 batches is 85.47% 
Validation accuracy after 400 batches is 87.27% 
Validation accuracy after 500 batches is 88.93% 
Validation accuracy after 600 batches is 88.25% 
Validation accuracy after 700 batches is 89.91% 
Validation accuracy after 800 batches is 89.59% 
Validation accuracy after 900 batches is 89.96% 
Validation loss after 1 epochs is 3.453 


Model validation accuracy after 1 epoch is 90.50% 





这 表明 确实 可 以 从 零 开始 训练 CNN， 而 且 只 需 经 过 一 次 训练 ， 就 可 以 在 MNIST 上 达到 
90% 以 上 的 准确 度 | 
5.5 ”小结 


本 章 主要 介绍 卷 积 神经 网 络 (CNN)， 首 先 概 述 基 本 概念 及 CNN 与 全 连接 神经 网 络 的 异 
同 ， 然 后 深入 介绍 它 的 工作 方式 ， 并 使 用 Python 从 零 开 始 实现 核心 的 多 通道 卷 积 运算 。 














总 体 上 看 ， 在 创建 神经 元 数量 方面 ， 卷 积 层 比 目 前 所 看 到 的 全 连接 层 大 约 多 出 一 个 数量 
级 ， 但 由 于 每 个 神经 元 都 位 于 全 连接 层 中 ， 因 此 它们 只 是 上 一 层 的 部 分 特征 ， 而 不 是 所 有 
特征 的 组 合 。 这 些 神经 元 实际 上 被 分 为 “特征 图 " ， 每 个 特征 图 都 代表 在 图 像 中 的 给 定位 
置 上 是 否 存在 特定 的 视觉 特征 ， 相 当 于 这 度 卷 积 神经 网 络 中 的 视觉 特征 组 合 ， 这 些 特 征 图 
统称 为 卷 积 Layer 类 的 “通道 。 



































尽管 与 Dense 层 所 涉及 的 0peration 类 存在 差异 , 但 是 卷 积 运算 与 前 面 的 其 他 Param0peration 
都 适用 于 同一 模板 ， 具 有 下 面 两 个 特征 。 


。 它 具 有 _output 方法 ， 根 据 给 定 的 输入 和 参数 来 计算 输出 。 
。 它 具 有 _input_grad 方法 和 _param_grad 方法 ， 给 定 与 0peration 类 的 output 具有 相同 
形状 的 output_grad， 可 以 分 别 计 算 与 输入 和 参数 具有 相同 形状 的 梯度 。 











不 同 之 处 在 于 ，_input、output 和 paran 现在 是 四 维 ndarray， 而 它们 在 全 连接 层 的 情况 下 


是 二 维 ndarray。 

这 些 内 容 为 CNN 奠定 了 坚实 的 基础 ， 包 括 将 来 的 学 习 以 及 相关 应 用 程序 的 使 用 。 接 下 来 将 
介绍 另 一 种 常见 的 高 级 神经 网 络 架 构 ， 即 RNN (循环 神经 网 络 )， 这 种 神经 网 络 不 再 简单 
地 处 理 房屋 示例 和 图 像 示 例 中 的 非 顺 序 批 处 理 数 据 ， 而 是 处 理 按 顺序 出 现 的 数据 。 加 油 ! 
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RNN 

















本 章 将 介绍 RNN， 即 循环 神经 网 络 (recurrent neural network) ， 它 是 一 种 用 于 处 理 数据 序 
列 的 神经 网 络 架 构 。 目 前 所 介绍 的 神经 网 络 将 其 接收 到 的 每 一 批 数据 都 视 为 一 组 独立 的 观 
测 值 ， 也 就 是 说 ， 无 论 是 第 1 ~ 4 章 中 的 全 连接 神经 网 络 ， 还 是 第 5 章 中 的 CNN， 其 中 都 
不 存在 一 些 MNIST 数字 在 其 他 数字 之 前 或 之 后 到 达 的 概念 。 然 而 ， 不 管 是 可 能 在 工业 或 
金融 环境 中 处 理 的 时 间 序 列 数据 ， 还 是 按 字符 、 单 词 、 词 性 等 顺序 排列 的 语言 数据 ， 许 多 
数据 在 本 质 上 是 有 序 的 。RNN 旨 在 学 习 如 何 接收 这 些 数 据 序列 ， 并 返回 正确 的 预测 作为 输 
出 ， 比 如 第 二 天 金融 资产 的 价格 或 者 句子 中 将 出 现 的 下 一 个 单词 。 


与 全 连接 神经 网 络 相 比 ， 处 理 有 序数 据 需 要 完成 3 处 修改 。 第 一 ， 在 要 输入 到 神经 网 络 的 
ndarray 中 “增加 一 个 新 维度 ”。 以 前 ， 提 供给 神经 网 络 的 数据 本 质 上 是 二 维 的 ， 即 每 个 
ndarray 用 一 维 表示 观测 值 ， 用 另 一 维 表示 特征 数 '"。 另 一 种 思考 方式 是 ， 每 个 观测 值 都 是 
一 维 向 量 。 在 使 用 RNN 时 ， 每 个 输入 仍 将 具有 一 个 维度 来 表示 观测 值 ， 但 每 个 观测 值 都 
将 被 表示 为 一 个 二 维 ndarray: 一 个 维度 代表 数据 序列 的 长 度 ， 另 一 个 维度 表示 每 个 序列 
元 素 中 存在 的 特征 数 。 因 此 ，RNN 的 整体 输入 将 是 一 批 序列 ， 即 包含 形状 为 [batch_size， 


sequence_Length，num_features] 的 三 维 ndarray。 


















































第 二 ， 要 处 理 这 种 新 的 三 维 输入 ， 必 须 使 用 一 种 新 型 的 神经 网 络 架 构 ， 这 将 是 本 章 的 重 
点 。 但 是 ， 本 章 将 最 先 讨 论 第 三 个 变化 : 必须 使 用 具有 不 同 抽象 的 框架 来 处 理 这 种 新 的 数 
据 形 式 。 这 是 因为 在 全 连接 神经 网 络 和 CNN 中 ， 即 使 每 个 “运算 ”实际 上 代表 了 许多 单 
独 的 加 法 和 乘法 (例如 和 矩阵 乘法 或 卷 积 )， 也 可 以 被 描述 为 一 个 “微型 工厂 ”， 在 前 向 传递 








注 1: 我 们 碰巧 发 现 沿 行 排列 观测 值 并 且 沿 列 排列 特征 很 方便 ， 但 不 一 定 非 要 这 样 排列 数据 。 然 而 ， 数 据 确 
实 必须 是 二 维 的 。 
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和 后 向 传递 中 ， 它 们 都 需要 一 个 ndarray 作为 输入 ， 并 生成 一 个 ndarray 作为 输出 ， 还 有 
可 能 使 用 代表 运算 参数 的 另 一 个 ndarray 作为 这 些 计算 的 一 部 分 。 事 实证 明 ，RNN 并 不 能 
以 这 种 方式 实现 。 在 深入 了 解 原因 之 前 ， 先 来 思考 一 下 : 神经 网 络 架 构 的 哪些 特征 会 导致 
目前 所 构建 的 框架 出 现 问题 ? 虽然 这 个 问题 的 答案 很 有 启发 性 ， 但 完整 的 解决 方案 涉及 
实现 细节 ， 这 超出 了 本 书 的 讨论 范围 *“。 要 剖析 这 一 点 ， 需 要 揭示 目前 所 用 框架 的 一 个 关键 
限制 。 


6.1 关键 限制 : 处 理 分 支 


事实 证 明 ， 目 前 的 框架 无 法 使 用 如 图 6-1 所 示 的 计算 图 来 训练 模型 。 






































图 6-1: 导致 运算 框架 失效 的 计算 图 : 相同 的 量 在 前 向 传递 中 多 次 重复 ， 这 意味 着 不 能 像 以 前 一 样 简 
单 地 在 后 向 传递 中 按 顺序 向 后 发 送 梯度 


这 是 怎么 回 事 ? 将 前 向 传递 转换 为 代码 似乎 还 好 ， 如 以 下 代码 所 示 。 注 意 ， 这 里 的 Add 运 
算 和 Multiply 运算 仅 供 说 明之 用 。 








al = torch.randn(3,3) 
w1 = torch.randn(3,3) 
a2 = torch.randn(3,3) 
w2 = torch.randn(3,3) 


w3 = torch.randn(3,3) 


# 运算 

wm1 = WeightMultiply(w1) 
wm2 = WeightMultiply(w2) 
add2 = Add(2, 1) 

mult3 = Multiply(2, 1) 


b1 = wm1.forward(a1) 
wm2.forward(a2) 
cl1 = add2.forward((b1，b2)) 
L = muLt3.forward((c1，b2)) 





注 2: 本 书 不 会 涉及 相关 内 容 ， 但 不 排除 在 后 续 版 本 中 有 所 更 新 。 








当 开 始 后 向 传递 时 ， 麻 烦 就 来 了 。 假 设 要 使 用 常规 链 式 法 则 逻辑 来 计算 世相 对 于 丙 的 导 
数 。 以 前 ， 只 需 以 相反 的 顺序 在 每 个 运算 上 调用 backward 方法 即 可 。 在 这 里 ， 由 于 在 前 
向 传递 过 程 中 重用 了 8B, ， 因 此 该 方法 无 效 。 如 果 对 mult3 调用 backward 方法 ， 则 每 个 输 
入 (Cl 和 B,) 都 将 具有 梯度 。 但 是 ， 如 果 随 后 对 add2 调用 backward 方法 ， 那 么 将 无 法 
仅 输入 C 的 梯度 : 还 必须 以 某 种 方式 输入 B, 的 梯度 ， 因 为 这 也 会 影响 损失 工 。 因 此 ， 要 
正确 对 该 计算 图 执行 后 向 传递 ， 不 能 完全 只 按照 相反 的 顺序 执行 运算 。 必 须 手动 编写 如 下 
内 容 : 

















c1_grad, b2_grad_1 = mult3.backward(L_grad) 
b1_grad, b2_grad 2 = add2.backward(c1 grad) 


# 将 这 些 梯度 组 合 起 来 ,表示 B, 在 前 向 传递 中 使 用 了 两 次 
b2_grad = b2_grad_1 + b2 grad 2 





a2_grad = wm2.backward(b2_grad) 


al_grad = wm1.backward(b1_grad) 


在 这 一 点 上 ， 最 好 完全 跳 过 使 用 0peration 类 。 可 以 像 第 2 章 中 那样 ， 简 单 地 保存 在 前 向 
传递 中 计算 出 的 所 有 量 ， 并 在 后 向 传递 中 重用 它们 ! 另外 ， 通 过 手动 定义 要 在 神经 网 络 的 
前 向 传递 和 后 向 传递 中 完成 的 各 个 计算 ， 可 以 编写 任意 复杂 的 神经 网 络 ， 这 和 在 第 2 章 中 
实现 双 层 神经 网 络 的 后 向 传递 时 所 涉及 的 17 个 独立 运算 是 一 样 的 ，6.5 节 会 执行 类 似 的 运 
算 。 我 们 试图 通过 0peration 类 来 构建 一 个 灵活 的 框架 ， 该 框架 能 够 用 高 级 术语 描述 神经 
网 络 ， 并 让 所 有 的 低级 计算 “只 负责 工作 "。 虽 然 这 个 框架 说 明了 许多 关于 神经 网 络 的 关 
键 概念 ， 但 是 它 也 有 局 限 性 。 














这 个 问题 有 一 个 优雅 的 解决 方案 自动 微分 (automatic differentiation)， 这 是 一 种 完全 不 
同 的 神经 网 络 实现 方法 *。 考 虑 到 构建 一 个 功能 齐全 的 自动 微分 框架 本 身 就 需要 花费 几 章 的 
篇 幅 ， 这 里 只 涉及 与 其 工作 机 制 相关 的 概念 ， 并 不 会 介绍 过 多 内 容 。 此 外 ， 第 7 章 在 介绍 
PyTorch 时 会 提 到 如 何 使 用 高 性 能 自动 微分 框架 。 尽 管 如 此 ， 自 动 微分 仍然 是 一 个 重要 的 
概念 ， 在 深入 学 习 RNN 之 前 ， 可 以 从 基本 原理 上 进行 理解 。 这 里 将 为 它 设计 一 个 基本 框 
架 ， 并 展示 它 如 何 解决 前 面 示例 中 描述 的 在 前 向 传递 期 间 重用 对 象 的 问题 。 


6.2 ”自动 微分 


正如 前 面 所 介绍 的 ， 必 须 针 对 某 些 神经 网 络 架构 训练 模型 ， 而 目前 使 用 的 0peration 框架 
在 计算 输出 相对 于 输入 的 梯度 时 并 不 乐观 。 自 动 微 分 可 以 通过 完全 不 同 的 路 径 计算 这 些 梯 
































注 3: 这 个 问题 还 有 一 个 解决 方案 ， 这 是 Daniel Sabinasz 在 他 的 博客 “deep ideas” 上 分 享 的 : 他 将 运算 表 
示 为 一 个 示意 图 ， 然 后 使 用 广度 优先 搜索 ， 在 后 向 传递 中 按照 正确 的 顺序 计算 梯度 ， 最 终 构 建 一 个 模 
仿 TensorFlow 的 框架 。 他 发 表 的 关于 如 何 做 到 这 一 点 的 博客 文章 结构 明晰 ， 表 述 清楚 。 














度 : 不 是 将 0peration 类 作为 构成 神经 网 络 的 基本 单位 ， 而 是 定义 一 个 类 ， 该 类 包装 了 数 
据 本 身 ， 并 可 以 让 数据 跟踪 对 其 执行 的 运算 ， 这 样 在 涉及 不 同和 运算 时 ， 数 据 就 可 以 不 断 累 








积 梯度 。 为 了 更 好 地 理解 这 种 “梯度 累积 ”的 工作 原理 ， 接 下 来 开始 对 其 进行 编码 。 


编码 梯度 累积 


为 了 自动 跟踪 梯度 ， 必 须 重 写 对 数据 执行 基本 运算 的 Python 方法 。 在 Python 中 ,使 用 + 
或 - 等 运算 符 实际 上 会 调用 _add_ 或 _sub_ 之 类 的 基础 隐藏 方法 。 例 如 ， 这 是 + 运算 符 的 


工作 方式 : 


a=array([3,3]) 
print("Addition using '_add _':", a.__add__(4)) 
print("Addition using '+':", a + 4) 


Addition using '_add ': [7 7] 
Addition using '+': [7 7] 


可 以 利用 这 个 优势 编写 一 个 类 ， 该 类 包装 典型 的 Python“ 数字 ”(flLoat 或 int)， 并重 





add 方法 和 mul 方法 : 
Numberable = Union[float, int] 


def ensure_number(num: Numberable) -> NumberWithGrad: 
if isinstance(num, NumberWithGrad): 
return num 
else: 
return NumberWithGrad(num) 


class NumberWithGrad(object): 


def _ init__(self, 

num: Numberable, 
depends_on: List[Numberable] = None, 
creation_ op: str = ''): 

seLf.num = Num 

self.grad = None 

self.depends_on = depends_on or [] 

self.creation op = creation_op 


def _add__(self, 
other: Numberable) -> NumberWithGrad: 
return NumberWithGrad(self.num + ensure_number(other ) .num， 
depends_on = [self, ensure_number(other)], 
Creation op = 'add') 


def _ mul__(self, 
other: Numberable = None) -> NumberWithGrad: 














注 4: 要 深入 理解 如 何 实现 自动 微分 ， 请 参阅 Andrew Trask 所 著 的 《深度 学 习 图 解 》。 
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return NumberWithGrad(self.num * ensure_number(other) .num， 
depends_on = [self, ensure_number(other)], 
creation op = 'mul') 


def backward(self, backward_grad: Numberable = None) -> None: 
if backward_grad is None: # first time calling backward 
self.grad = 1 
else: 
# 这 些 行 允许 累积 梯度 。 
# 如 果 梯 度 尚 不 存在 ， 就 将 其 设置 为 backward_grad 
if self.grad is None: 
self.grad = backward_grad 
# 否则 ， 只 需 向 现 有 梯度 添加 backward_grad 
else: 
self.grad += backward_grad 











if self.creation op == "add": 
# 由 于 增加 这 两 个 元 素 中 的 任意 一 个 都 会 使 输出 增加 相同 的 量 ， 
# 因此 只 需 向 后 发 送 seLf.grad 
seLf .depends_on[0].backward(seLf.grad) 
seLf .depends_on[1].backward(seLf.grad) 








if self.creation op == "mul": 


# 计算 关于 第 1 个 元 素 的 导数 
new = self.depends_on[1] * self.grad 
# 向 后 发 送 关 于 该 元 素 的 导数 


self.depends_on[0].backward(new.num) 


# 计算 关于 第 2 个 元 素 的 导数 
new = self.depends_on[0] * self.grad 
# 向 后 发 送 关 于 该 元 素 的 导数 


seLf .depends_on[1].backward(Cnew.num) 


这 里 执行 了 很 多 和 运算。 让 我 们 仔细 研究 NumberwithGrad 类 的 工作 方式 。 回 想 一 下 ， 这 样 一 
个 类 的 目标 是 能 够 编写 简单 的 运算 并 自动 计算 梯度 。 假 设 像 下 面 这 样 编写 代码 : 














a = NumberWithGrad(3) 


三 a *4 
c=b+5 





此 时 ,将 a 增加 ¢ 后 ,c 的 值 会 增加 多 少 ? 很 明显 ，c 会 增加 4x<e。 实 际 上 ， 使 用 前 东 


， 的 
类 ， 如 果 首 先 像 这 样 编写 : 

















c.backward() 

















然后 ， 无 须 编 写 for 循环 遍历 0peration 类 或 其 他 运算 ， 便 可 以 得 到 下 面 的 结果 : 











print(a.grad) 





这 是 什么 原因 呢 ? 上 述 类 的 基本 思想 是 ， 每 当 对 NumberWithGrad 类 执行 + 运算 或 * 运 算 
时 ， 都 会 创建 一 个 新 的 NumberwithGrad 类 ， 并 将 第 一 个 NumberwithGrad 类 作为 依赖 项 。 然 
后 ， 就 像 前 面 调用 c 一 样 ， 在 针对 NumberWithGrad 类 调用 backward 方法 时 ， 将 自动 计算 用 
于 创建 c 的 所 有 NumberWithGrad 类 的 所 有 梯度 。 因 此 ， 这 个 过 程 不 仅 计算 了 a 的 梯度 ， 也 
计算 了 b 的 梯度 : 








print(b.grad) 


J 





然而 ， 这 个 框架 的 真正 优势 在 于 ， 它 允许 NumberwWithGrad 类 累积 梯度 ， 从 而 使 这 些 梯度 在 
一 系列 计算 中 多 次 重用 ， 而 最 终 仍然 可 以 得 到 正确 的 梯度 。 这 里 将 用 之 前 介绍 过 的 一 系列 
相同 的 运算 ， 通 过 在 一 系列 计算 中 多 次 使 用 NumberwithGrad 类 来 说 明 ， 同 时 详细 解释 它 的 
工作 方式 。 


1. 自动 微分 详解 
下 面 是 一 系列 运算 ， 其 中 a 被 多 次 重用 : 


a = NumberWithGrad(3) 


如 有 果 执 行 这 些 运算 ， 那 么 可 以 算出 d = 75， 但 是 真正 的 问题 是 : 当 a 的 值 增加 后 ，d 的 值 
会 增加 多 少 ? 可 以 用 数学 方法 得 出 这 个 问题 的 答案 : 





d=(4a+3)x(a+2)=4a’ +1lla+6 


使 用 微 积 分 中 的 壤 律 (power rule) : 
oa =8a+t+1l1l 
Oa 


因此 ， 对 于 a=3 ,该 导数 的 值 应 为 8x3+11=35 。 用 数字 进行 确认 : 
def forward(num: int): 
b= num* 4 
C=b+3 
return c * (num + 2) 


print(round(forward(3.01) - forward(2.99)) / 0.02), 3) 


35.0 


可 以 看 到 ， 在 使 用 自动 微分 框架 计算 梯度 时 ， 能 得 到 相同 的 结果 。 








a = NumberWithGrad(3) 


a*4 
b+3 
(a + 2) 
cw*d 
e.backward() 


b 
C 
d 
e 


print(a.grad) 


35 


2. 原理 解释 
如 前 所 述 ， 自 动 微分 的 目标 是 让 数据 对 象 (数字 、ndarray、Tensor 类 等 ) 成 为 分 析 的 基 
本 单位 ， 而 不 是 用 以 前 的 0peration 类 。 


所 有 自动 微分 技术 都 具有 以 下 共同 点 。 


。 每 种 技术 都 包含 一 个 类 ， 该 类 包装 正在 计算 的 实际 数据 ， 这 里 使 用 NumberwithGrad 类 
来 包装 float 和 int。 在 PyTorch 中 ， 类 似 的 类 叫 作 Tensor。 
重新 定义 了 加 法 、 乘 法 和 和 矩阵 乘法 之 类 的 常用 运算 ， 这样 它们 始终 返回 这 个 类 的 成 员 。 

在 上 述 情况 下 ， 要 确保 对 两 个 NumberWithGrad 类 ， 或 者 一 个 NumberwithGrad 类 和 一 个 
float (或 int) 执行 加 法 。 
给 定 在 前 向 传递 中 会 发 生 的 情况 , NumberwithGrad 类 必须 包含 有 关 如 何 计 算 梯 度 的 信息 。 
以 前 是 通过 在 类 中 包含 creation_op 参数 来 完成 此 操作 ， 该 参数 仅 记 录 NumberwithGrad 
类 的 创建 方式 。 

。 在 后 向 传递 中 ， 使 用 基础 数据 类 型 (而 不 是 包装 器 ) 将 梯度 向 后 传递 。 这 意味 着 梯度 的 
类 型 是 float 和 int， 而 不 是 NumberwithGrad 类 。 
如 本 市 开头 所 述 ， 自 动 微分 使 我 们 能 够 重用 在 前 向 传递 过 程 中 计算 出 的 量 。 前 面 的 示例 
使 用 了 两 次 a 而 没有 出 现 问题 ， 关 键 是 以 下 儿 行 代码 : 























if self.grad is None: 
self.grad = backward_grad 
else: 
self.grad += backward_grad 


这 些 代码 行 表示 ， 当 接收 到 新 的 梯度 backward_grad 时 (一 个 NumberWithGrad 类 )， 
应 该 将 NumberwithGrad 类 的 梯度 初始 化 为 这 个 值 ， 或 者 简单 地 将 该 数值 添加 到 
NumberWithGrad 类 的 现 有 梯度 中 。 当 相关 对 象 在 模型 中 被 重用 时 ， 这 些 代 码 可 以 让 
NumberwithGrad 类 累积 梯度 。 


以 上 就 是 自动 微分 的 全 部 内 容 。 因 为 它 需 要 在 前 向 传递 过 程 中 重用 某 些 量 才 能 进行 预测， 
所 以 接 下 来 看 一 下 引发 这 种 话题 的 模型 结构 。 














6.3 RNN 的 动机 


正如 本 章 开 头 所 讨论 的 那样 ，RNN 旨 在 处 理 序列 中 出 现 的 数据 : 现在 ， 每 个 观测 值 不 
包含 n 个 特征 的 向 量 ， 而 是 一 个 个 特征 乘 以 1 个 时 间 步 长 的 二 维 数组 ， 如 图 6-2 所 示 。 
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图 6-2: 序列 数据 : 在 个 时 间 步 长 中 ,每 一 个 时 间 步 长 都 有 n 个 特征 


接 下 来 的 几 节 将 说 明 RNN 如 何 容纳 这 种 形式 的 数据 ， 但 首先 来 看 一 下 使 用 RNN 的 动机 。 
仅 使 用 常规 前 馈 神 经 网 络 处 理 此 类 数据 的 局 限 性 是 什么 ?尝试 将 每 个 时 间 步 长 都 表示 为 
一 组 独立 的 特征 。 例 如 ， 一 个 观测 值 可 能 具有 来 自 时 间 t=1 的 特征 ， 而 目标 值 则 来 自 时 间 
1=2 ， 下 一 个 观测 值 可 能 具有 来 自 时 间 t=2 的 特征 ， 而 目标 值 则 来 自 时 间 上 =3 ， 以 此 类 
推 。 如 有 果 想 使 用 来 自 多 个 时 间 步 长 的 数据 进行 预测 ， 则 可 以 使 用 t=1 和 t=2 的 特征 来 预测 
t=3 的 目标 ,使 用 t=2 和 t=3 的 特征 来 预测 +:=4 的 目标 ， 以 此 类 推 。 


















































然而 ， 将 每 个 时 间 步 长 视 为 独立 特征 忽略 了 数据 是 按 顺序 排列 的 这 一 事实 。 在 理想 情况 
下 ， 如 何 利用 数据 的 顺序 性 做 出 更 好 的 预测 呢 ? 解决 方案 可 以 参考 下 面 儿 个 步骤 。 














1. 使 用 时 间 步 长 1=1 中 的 特征 为 1=1 处 的 相应 目标 进行 预测 。 

2. 使 用 时 间 步 长 1=2 中 的 特征 和 t=1 中 的 信息 ， 包 括 1=1 处 的 目标 值 ， 来 进行 :=2 处 的 
预测 。 

3. 使 用 时 间 步 长 1=3 中 的 特征 以 及 t=1 和 t=2 中 的 累积 信息 来 进行 1=3 处 的 预测 。 

4. 以 此 类 推 ， 在 每 个 步骤 中 ， 使 用 所 有 先前 时 间 步 长 中 的 信息 进行 预测 。 


为 了 做 到 这 一 点 ， 还 需要 通过 神经 网 络 一 次 传递 一 个 序列 元 素 ， 首 先 传递 第 一 个 时 间 步 
长 的 数据 ， 然 后 传递 下 一 个 时 间 步 长 的 数据 ， 以 此 类 推 。 此 外 ， 当 新 的 序列 元 素 通过 
时 ， 神 经 网 络 可 以 “累积 ”关于 它 以 前 所 看 到 的 信息 。 本 章 随后 将 详细 讨论 RNN 如 何 
实现 这 一 点 ， 那 时 可 以 看 到 ， 虽 然 RNN 有 多 个 变 体 ， 但 它们 在 顺序 处 理 数 据 的 方式 上 
都 有 一 个 共同 的 基础 结构 。 本 章 将 花 大 部 分 篇 幅 讨 论 这 个 结构 ， 并 在 最 后 讨论 各 个 变 体 
的 不 同 之 处 。 





























6.4 RNN 简 介 


现在 从 总 体 上 回顾 如 何 通过 前 馈 神经 网 络 传递 数据 ， 进 而 开始 对 RNN 的 讨论 。 在 这 种 类 
型 的 神经 网 络 中 ， 数 据 通过 一 系列 层 进行 传递 。 对 于 单个 观测 值 ， 每 一 层 的 输出 都 是 神经 
网 络 对 这 一 层 中 该 观测 值 的 表征 (representation ) 。 在 第 一 层 之 后 ， 该 表征 包含 由 原始 特征 
所 组 合 的 特征 。 在 第 二 层 之 后 ， 它 包含 这 些 表征 的 组 合 ， 也 可 以 说 原始 特征 的 “特征 的 特 
征 ”， 以 此 类 推 ， 神 经 网 络 中 的 其 他 后 续 的 层 也 是 这 种 情况 。 然 后 ， 在 每 次 前 向 传递 之 后 ， 
神经 网 络 在 其 每 一 层 的 输出 中 都 包含 原始 观测 值 的 许多 表征 ， 如 图 6-3 所 示 。 





















































常规 神经 网 络 
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征 向 量 果 表 征 向 量 














6-3: 常规 神经 网 络 将 观测 值 向 前 传递 并 在 每 一 层 后 将 其 转换 成 不 同 的 表征 

但 是 ， 当 下 一 组 观测 值 通过 神经 网 络 时 ， 这 些 表 征 将 被 丢弃 。RNN 及 其 所 有 变 体 的 关键 创 
新 是 将 这 些 表 征 与 下 一 组 观测 值 一 起 传递 回 神 经 网 络 。 图 6-4 是 这 个 过 程 的 示意 图 ， 文 字 
表述 如 下 。 

















— 


1. 在 第 一 个 时 间 步 长 中 ,传递 1=1 处 的 观测 值 ( 可 能 还 带 有 随机 初始 化 的 表征 )， 然 后 输 

出 t=1 的 预测 值 以 及 每 一 层 的 表征 。 

2. 在 第 二 个 时 间 步 长 中 ,传递 1=2 处 的 观测 值 以 及 在 第 一 个 时 间 步 长 中 计算 的 表征 ( 同 
样 ， 这 只 是 神经 网 络 各 层 的 输出 )， 并 以 某 种 方式 将 它们 进行 组 合 。 注 意 ， 这 个 组 合 步 
又 将 体现 各 种 RNN 变 体 的 差异 。 使 用 这 两 条 信息 来 输出 +=2 的 预测 值 以 及 每 一 层 中 被 
更 新 的 表征 ， 它 们 现在 是 同时 在 1=1 处 和 t=2 处 所 传人 的 输入 的 函数 。 

3. 在 第 三 个 时 间 步 长 中 ,传递 1=3 处 的 观测 值 和 包含 来 自 :=1 和 t=2 的 信息 的 表征 ， 并 
使 用 此 信息 对 上 =3 进行 预测 ， 同 时 更 新 每 层 中 的 附加 表征 ， 这 些 表征 现在 包含 了 第 一 
个 时 间 步 长 到 第 三 个 时 间 步 长 中 的 信息 。 






































输入 隐藏 向 量 隐藏 向 量 ”预测 向 量 
(=]) (=]) (t=1) (=1) 


时 间 步 长 1:，(1=1) 一 一 2 ER 
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6-4: RNN 将 每 一 层 的 表征 传递 到 下 一 个 时 间 步 长 


可 以 看 到 ， 每 层 都 有 一 个 “持久 化 ”的 表征 ， 随 着 时 间 的 推移 ， 它 会 随 着 新 观测 值 的 传递 





而 不 断 更 新 。 事 实 上 ， 这 就 是 RNN 不 适合 前 儿童 编写 的 0peration 框架 的 原 





因 : 为 了 通过 





RNN 对 单个 数据 序列 进行 一 组 预测 ， 代 表 每 一 层 状 态 的 ndarray 会 不 断 更 新 并 多 次 重用 。 
由 于 无 法 使 用 第 5 章 中 的 框架 ， 因 此 必须 从 基本 原则 出 发 ， 明 确 处 理 RNN 所 需 构建 的 类 。 














6.4.1 RNN 的 第 一 个 类 : RNNLayer 





根据 对 RNN 工作 方式 的 描述 ， 可 以 知道 至 少 需要 一 个 RNNLayer 类 ， 该 类 一 次 将 一 个 数据 
序列 传递 给 一 个 序列 元 素 。 现 在 来 详细 了 解 此 类 的 工作 方式 ， 正 如 本 章 提 到 的 那样 ，RNN 
将 处 理 包 含 二 维 观测 值 的 数据 ， 涉 及 sequence_length 和 num_features。 另 外 ， 由 于 以 批 
量 方式 向 前 传递 数据 在 计算 上 更 加 高 效 ， 因 此 RNNLayer 类 将 必须 接收 一 个 三 维 ndarray 
(batch_size、sequence_length 和 num_features)。 但 是 ，6.3 节 刚 开始 就 提 到 过 ， 我 们 希 
望 一 次 传 给 RNNLayer 类 一 个 序列 的 数据 ， 那 么 如 果 输 入 的 data 是 [batch_size, sequence_ 














Length, num_features]， 如 何 实现 这 一 点 ”可 以 参考 下 面 的 步骤 。 


1. 从 第 二 个 轴 中 选择 一 个 以 data[:，9，:] 开始 的 二 维 数组 。 这 个 ndarray 的 形状 为 





[batch_size，num_features] 。 


2. 为 RNNLayer 类 初始 化 一 个 “隐藏 状态 "， 此 状态 将 随 着 每 个 序列 元 素 的 传 入 而 不 断 更 





新 ， 这 里 形状 为 [batch_size，hidden_size]。 这 个 ndarray 表示 该 层 在 先 
已 传递 的 有 关 数 据 的 “累积 信息 ”。 


前 时 间 步 长 中 











3. 将 这 两 个 ndarray 向 前 传递 到 该 层 的 第 一 个 时 间 步 长 。 最 终 设计 RNNLayer 类 来 输出 
ndarray 〈 与 输入 的 维度 不 同 )， 这 和 和 党 规 的 Dense 层 是 一 样 的 ， 因 此 输出 将 具有 形状 
[batch_size，num_outputs]。 此 外 ， 为 每 个 观测 值 都 更 新 神经 网 络 的 表征 : 在 每 个 时 间 
步 长 中 ，RNNLayer ~ 应 该 输出 一 个 形状 为 [batch_size，hidden_size] 的 ndarray。 

4. 从 data: data[:，1，:] 中 选择 下 一 个 二 维 数 组 。 

5. 将 该 数据 和 在 第 ae RNN 表征 值 传递 到 该 层 的 第 二 个 时 间 步 长 ， 从 
而 获得 形状 为 [batch_size，num_outputs] 的 另 一 个 输出 ， 以 及 形状 为 [batch_size， 
hidden_size] 的 更 新 表征 。 

6 继续 执行 上 述 操作 ， 直 到 sequence_length 个 时 间 步 长 都 已 通过 该 层 。 然 后 将 所 有 结果 串 
联 在 一 起 ， 来 获取 该 层 的 输出 ， 其 形状 为 [batch_size，sequence_Length，num_outputs] 。 


























上 面 几 个 步骤 有 助 于 理解 RNNLayer 类 的 工作 方式 ， 而 且 在 编写 代码 时 也 可 以 巩固 这 种 理 
解 。 但 它 暗示 需要 另 一 个 类 来 处 理 接收 到 的 数据 并 在 每 个 时 间 步 长 中 更 新 层 的 隐藏 状态 。 
这 时 需要 使 用 RNNNode 类 ， 也 就 是 要 介绍 的 下 一 个 类 。 

















6.4.2 RNN 的 第 二 个 类 : RNNNode 
RNNNode 类 应 该 具有 包含 以 下 输入 和 输出 的 forward 方法 。 


1， 两 个 作为 输入 的 ndarray。 
一 个 用 于 输入 到 神经 网 络 的 数据 ， 形 状 为 [batch_size, num_features]。 
一 个 用 于 该 时 间 步 长 的 观测 值 表征 ， 形 状 为 [batch_size, hidden_size]。 
2.， 两 个 作为 输出 的 ndarray。 
一 个 用 于 该 时 间 步 长 的 神经 网 络 输出 ， 形 状 为 [batch_stze，nun_outputs]。 
一 个 用 于 该 时 间 步 长 中 观测 值 的 更 新 表征 ， 形 状 为 [batch_size, hidden_size]。 


接 下 来 展示 如 何 将 RNNNode 类 和 RNNLayer 类 整合 在 一 起 。 








6.4.3 整合 RNNNode 类 和 RNNLayer 类 
RNNLayer 类 将 包装 一 个 RNNNode 列表 ， 并 且 至 少将 包含 具有 以 下 输入 和 输出 的 forward 方法 。 


1. 输入 : 一 批 观测 值 序列 ， 形 状 为 [batch_size，sequence_Length，num_features] 。 
2. 输出 : 这 些 序列 的 神经 网 络 输出 ， 形 状 为 [batch_size，sequence_length, num_outputs]。 





6-5 显示 了 数据 通过 RNN 向 前 移动 的 顺序 ， 该 RNN 具有 两 个 RNNLayer 类 ， 其 中 各 包含 $ 
个 RNNNode 类 。 在 每 个 时 间 步 长 中 ， 尺 寸 为 feature_size 的 初始 输入 依次 通过 每 个 RNNLayer 
类 中 的 第 一 个 RNNNode 类 向 前 传递 ， 神 经 网 络 最 终 在 该 时 间 步 长 输出 维度 为 output_size 
预测 值 。 此 外 ， 每 个 RNNNode 类 都 将 “隐藏 状态 ”传递 到 每 层 中 的 下 一 个 RNNNode 类 。 

5 个 时 间 步 长 中 的 数据 都 通过 了 所 有 层 ， 就 将 获得 形状 为 [5， output_size] 
其 中 output_size 应 具有 与 目标 相同 的 维度 。 然 后 将 这 些 预测 与 目标 进行 比较 ， 并 计算 出 

















损失 梯度 ， 从 而 启动 后 向 传递 。 图 6-5 对 此 进行 了 上 总结， 显示 了 数据 流 经 5x2 个 RNNNode 
类 的 顺序 (从 1 到 10)。 
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图 6-5: 数据 流 经 RNN 的 顺序 ， 该 RNN 有 两 层 ， 用 于 处 理 长 度 为 5 的 序列 
此 外 ， 数 据 也 可 以 按 图 6-6 所 示 的 顺序 流 经 RNN。 无 论 顺 序 如 何 ， 都 会 发 生 以 下 3 种 情况 。 


1. 每 层 的 数据 处 理 都 发 生 在 下 一 层 之 前 的 给 定时 间 步 长 。 例 如 ， 在 图 6-5 中 ，2 不 能 在 1 
之 前 发 生 ，4 不 能 在 3 va 

2. 同样 ， 每 一 层 都 必须 按 顺序 处 理 所 有 时 间 步 长 。 例 如 ， 在 图 6-5 中 ，4 不 能 在 2 之 前 发 
生 ，3 不 能 在 1 之 前 发 生 。 

3. 最 后 一 层 必 须 为 每 个 观测 值 都 输出 维度 feature_size。 
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图 6-6: 数据 按照 另 一 顺序 在 前 向 传递 过 程 中 流 经 同一 个 RNN 
以 上 就 是 RNN 前 向 传递 的 工作 方式 。 后 向 传递 又 是 怎样 的 呢 ? 





6.4.4 后 向 传递 
通过 RNN 进行 的 反 向 传播 通常 会 描述 为 一 种 单独 的 算法 ， 称 作 “ 基 于 时 间 的 反 向 传播 ”>。 


。 
尽管 


这 确实 描述 了 反 向 传播 期 间 发 生 的 情况 ， 但 听 起 来 比 实际 情况 要 复杂 得 多 。 记 住 关于 


数据 如 何 通 过 RNN 向 前 流动 的 解释 部 分 ， 可 以 用 这 种 方式 描述 后 向 传递 的 过 程 : 通过 将 
梯度 向 后 传递 给 神经 网 络 (采用 与 在 前 向 传递 中 传递 输入 相反 的 顺序 )， 从 而 将 数据 向 后 
传递 给 RNN。 实 际 上 ， 这 和 常规 前 馈 神 经 网 络 中 的 操作 一 样 。 





在 前 向 传递 过 程 中 ， 查 看 图 6-5 和 6-6 中 的 示意 图 ， 可 以 得 出 以 下 5 个 结论 。 


一 














.从 一 批 观 测 值 开始 ， 每 个 观测 值 的 形状 为 [feature_size，sequence_length]。 
.这 些 输入 被 分 解 为 单独 的 sequence_length 元 素 ， 并 一 次 传递 到 神经 网 络 中 。 
. 每 个 元 素 都 通过 所 有 层 ， 最 终 转换 成 大 小 为 output_size 的 输出 。 
. 同时 ， 层 在 下 一 个 时 间 步 长 中 将 隐藏 状态 向 前 传递 到 层 的 计算 中 。 

.对 于 所 有 sequence_length 时 间 步 长 ， 这 个 过 程 都 持续 进行 ， 从 而 得 出 大 小 为 [output_ 








size，sequence_length] 的 总 输出 。 


反 向 传播 的 工作 方式 与 此 完全 相同 ， 但 过 程 相反 ， 有 具体 如 下 。 


外 : 


从 形状 为 [output_size， sequence_Length] 的 梯度 开始 ， 该 梯度 表示 输出 的 每 个 元 素 
(大 小 同样 为 [output_size，sequence_length]) 最 终 对 为 该 批 观测 值 所 计算 的 损失 的 影 
响 程度 。 











， 这 些 梯度 被 分 解 为 单独 的 sequence_length 元 素 ， 并 以 相反 的 顺序 后 向 传递 通过 各 层 。 
.单个 元 素 的 梯度 后 向 传递 通过 所 有 层 。 
. 同时， 各 层 将 该 时 间 步 长 中 相对 于 隐藏 状态 的 损失 梯度 向 后 传递 到 各 层 先前 的 时 间 步 长 


的 计算 中 。 


.对 于 所 有 sequence_length 时 间 步 长 ， 这 个 过 程 都 持续 进行 ， 直 到 将 梯度 向 后 传递 到 神 


经 网 络 中 的 每 一 层 ， 从 而 可 以 计算 相对 于 每 个 权重 的 损失 梯度 ， 就 像 在 常规 前 馈 神 经 网 
络 中 所 做 的 那样 。 








6-7 突出 展示 了 后 向 传递 和 前 向 传递 之 间 的 这 种 并 行 性 ， 以 及 数据 在 后 向 传递 中 流 经 
RNN 的 方式 。 当 然 ， 可 以 看 到 ， 垂 直方 向 上 的 箭头 与 图 6-5 中 的 相反 。 








注 5: backpropagation through time，BPTT。 一 一 译 者 注 
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图 6-7: 在 后 向 传递 中 ，RNN 以 与 前 向 传递 数据 相反 的 方向 传递 数据 


这 表明 ， 总 体 而 言 ，RNNLayer 类 的 前 向 传递 和 后 向 传递 与 它们 在 常规 神经 网 络 层 中 的 非常 
相似 : 它们 都 接收 某 种 形状 的 ndarray 作为 输入 ， 输 出 另 一 种 形状 的 ndarray， 并 且 在 后 向 
传递 中 接收 到 的 输出 梯度 与 输出 形状 相同 ， 同 时 产生 与 输入 形状 相同 的 输入 梯度 。 但 是 ， 
与 其 他 层 相 比 ，RNNLayer 类 中 处 理 权重 梯度 的 方式 存在 一 个 关键 差异 ， 在 开始 编写 全 部 代 
码 之 前 ， 我 们 将 简要 讨论 这 一 点 。 


RNN 中 权重 的 累积 梯度 

就 像 在 常规 神经 网 络 中 一 样 ，RNN 中 的 每 一 层 也 都 将 具有 一 组 权重 。 这 意味 着 相同 的 权 
重 集 将 在 所 有 sequence_length 时 间 步 长 上 影响 层 的 输出 。 因 此 ， 在 反 向 传播 期 间 ， 相 同 
的 权重 集 将 接收 sequence_length 个 梯度 。 以 图 6-7 所 示 的 反 向 传播 为 例 ， 在 标记 为 “1” 
的 圆圈 中 ， 第 二 层 将 在 最 后 一 个 时 间 步 长 处 接收 到 一 个 梯度 ， 而 在 标记 为 “3” 的 圆圈 中 ， 
该 层 将 接收 倒数 第 二 个 时 间 步 长 的 梯度 ， 两 者 将 由 相同 的 权重 集 驱 动 。 因 此 ， 在 反 向 传播 
过 程 中 ， 必 须 在 一 系列 时 间 步 长 上 累积 权重 的 梯度 ， 这 意味 着 无 论 选 择 如 何 存储 权重 ， 都 
必须 使 用 类 似 以 下 的 方法 来 更 新 它们 的 梯度 : 





























weight_ grad += grad_from_time_step 
这 与 Dense 层 和 Conv2D 层 不 同 ， 这 两 种 层 仅 将 参数 存储 在 param_grad 参数 中 。 
前 面 已 经 列 出 了 RNN 的 工作 方式 以 及 实现 它们 所 要 构建 的 类 ， 接 下 来 具体 看 看 实现 细节 。 





6.5 RNN: 代码 
下 面 从 实现 RNN 的 几 种 方法 开始 ， 这 些 方 法 与 本 书 介绍 的 其 他 神经 网 络 的 方法 类 似 。 








1. RNN 仍 将 通过 一 系列 层 向 前 传递 数据 ， 这 些 层 在 前 向 传递 过 程 中 向 前 发 送 输出 ， 在 后 
癌 传 递 过 程 中 向 后 发 送 梯度 。 因 此 ， 无 论 NeuralNetwork 类 最 终 如 何 替换 ， 都 仍然 会 有 
一 个 包含 RNNLayer 列表 的 Layers 属性 ， 前 向 传递 将 由 如 下 代码 实现 。 


def forward(self, x_batch: ndarray) -> ndarray: 
assert_dim(ndarray, 3) 


x_out = x_batch 
for layer in self.layers: 


x_out = layer.forward(x_out) 


return x_out 





2. RNN 的 Loss 与 之 前 相同 : 最 后 的 Layer 类 生成 一 个 返回 ndarray 的 output， 并 与 y_ 
batch 进行 比较 。 然 后 计算 出 一 个 值 ， 并 以 与 output 相同 的 形状 返回 该 值 相对 于 Loss 
输入 的 梯度 。 为 了 与 形状 为 [batch_size， sequence_Length， feature_size] 的 ndarray 
配合 使 用 ， 必 须 修改 softmax 函数 ， 但 这 个 问题 可 以 解决 。 

3. Trainer 几乎 是 相同 的 : 循环 浏览 训练 数据 ， 选 择 多 个 批 次 的 输入 数据 和 输出 数据 ， 并 
不 断 将 它们 输入 到 模型 中 并 生成 损失 值 ， 以 此 判断 在 每 批 数据 输入 完毕 后 模型 是 否 在 学 
习 和 更 新 权重 。 

4. 0ptimizer 类 也 保持 不 变 。 正 如 将 看 到 的 ， 必 须 在 每 个 时 间 步 长 中 更 新 提取 params 参数 
和 param_grads 参数 的 方式 ， 但 是 “更 新 规则 ”( 在 类 的 -update_rute 国 数 中 捕获 的 规 
则 ) 保持 不 变 。 


Layer 类 本 身 就 很 有 趣 ， 接 下 来 详细 讨论 。 








二 上 


























6.5.1 RNNLayer 类 


前 面 提 到 ，Layer 类 包含 一 组 0peration 类 ， 这 些 0peration 类 向 前 传递 数据 并 向 后 发 送 梯 
度 。 然 而 ，RNNLayer 类 完全 不 同 ， 它 们 现在 必须 保持 “隐藏 状态 ”， 该 状态 将 随 着 新 数据 
的 输入 不 断 更 新 ， 并 在 每 个 时 间 步 长 中 以 某 种 方式 与 这 些 数据 进行 “合并 ”"。 至 于 具体 的 
工作 方式 ， 可 以 参考 图 6-5 和 图 6-6: 每 个 RNNLayer 类 都 应 该 具有 一 个 RNNNode 列表 作为 
属性 ， 然 后 层 的 input 中 的 每 个 序列 元 素 都 应 该 以 一 次 一 个 元 素 的 方式 通过 每 个 RNNNode 
列表 。 每 个 RNNNode 列表 都 将 接收 该 序列 元 素 以 及 该 层 的 “隐藏 状态 "， 在 这 个 时 间 步 长 中 
为 该 层 生 成 输出 ， 并 更 新 该 层 的 隐藏 状态 。 


为 了 清楚 地 展示 这 个 过 程 ， 现 在 开始 对 甚 进行 编码 ， 其 中 将 依次 介绍 如 何 初始 化 RNNLayer 
类 以 及 如 何在 前 向 传递 (或 后 向 传递 ) 过 程 中 向 前 (或 向 后 ) 发 送 数据 。 

1. 初始 化 

每 个 RNNLayer 类 都 将 用 以 下 内 容 开 头 。 
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。 一 个 ;int 类 型 的 hidden_size 
。 一 个 int 类 型 的 output_size 
。 一 个 形状 为 [1，hidden_size] 的 ndarray start_H， 表 示 层 的 隐藏 状态 


此 外 ， 就 像 在 和 常规 神经 网 络 中 一 样 ， 当 初始 化 层 时 ， 设 置 self.first = True。 在 第 一 次 将 
数据 传递 到 forward 方法 时 ， 将 接收 到 的 ndarray 传递 给 _init_params 方法 ， 初 始 化 参数 
并 设置 seLf.first = False。 





完成 层 的 初始 化 之 后 ， 接 下 来 看 一 下 如 何 发 送 数据 。 


2. forward 方法 

forward 方法 的 主要 部 分 将 包括 接收 一 个 形状 为 [batch_size， sequence_Length， feature_ 
size] 的 ndarray x_seq_in， 并 将 其 按 顺 序 传递 给 层 的 RNNNode 类 。 在 以 下 代码 中 ，self. 
nodes 是 该 层 的 RNNNode 类 ，H_in 则 是 该 层 的 隐藏 状态 : 











sequence_length = x_seq_in.shape[1] 
x_seq_out = np.zeros((batch_size，sequence_Length，seLf .output_size)) 
for t in range(sequence_Length ) : 

| 

y_out, H_in = self.nodes[t].forward(x_in, H_in, self.params) 


x_seq_out[:, t, :] = y_out 


关于 隐藏 状态 H_in， 需 要 注意 一 点 ; RNNLayer 类 的 隐藏 状态 通常 以 向 量 表示 ， 但 是 每 个 
RNNNode 类 中 的 运算 都 要 求 隐 藏 状态 是 一 个 大 小 为 [batch_size，hidden_size] 的 ndarray。 
因此 ， 在 开始 每 次 前 向 传递 时 ， 都 只 是 “重复 ”隐藏 状态 : 


batch_size = x_seq_in.shape[0] 
H_in = np.copy(self.start_H) 


H_in = np.repeat(H_in, batch_size, axis=0) 





在 前 向 传递 之 后 ， 取 各 批 次 观测 值 的 平均 值 ， 来 获取 该 层 更 新 后 的 隐藏 状 态 : 





self.start_H = H_in.mean(axis=0, keepdims=True) 


此 外 ， 从 代码 中 可 以 看 到 ，RNNNode 类 必须 有 一 个 forward 方法 ， 该 方法 接受 如 下 形状 的 两 
个 数组 。 


。 [batch_size，feature_size] 


。 [batch_size，hidden_size] 





同时 ， 会 返回 如 下 形状 的 两 个 数组 。 
。 [batch_size, output_sizel] 
。 [batch_size, hidden_sizel] 


后 文 会 介绍 RNNNode 类 及 其 变 体 ， 不 过 在 开始 之 前 ， 先 来 看 一 下 RNNLayer 类 的 backward 
方法 。 





3. backward 方法 

由 于 forward 方法 输出 x_seq_out， 因 此 backward 方法 将 接收 与 x_seq_out 形状 相同 的 梯度 ， 
即 x_seq_out_grad。 与 forward 方法 的 移动 方向 相反 ， 这 里 通过 RNNNode 类 向 后 传递 这 个 
梯度 ， 最 终 返 回 形 状 为 [batch_size， sequence_Length， seLf.feature_size] 的 x_seq_in_ 
grad 作为 整 层 的 梯度 : 











h_in_grad = np.zeros((batch_size, self.hidden size)) 
sequence_length = x_seq_out_grad.shape[1] 
x_seq_in grad = np.zeros((batch_size, sequence_ length, self.feature_ size)) 
for t in reversed(range(sequence_length)): 
x_out_grad = x_seq_out grad[:, t, :] 


grad_out, h_in grad = \ 
self.nodes[t].backward(x_out_grad, h_in_grad, self.params) 


x_seq_in grad[:, t, :] = grad_out 


由 此 可 见 ， 为 了 遵循 模式 ，RNNNode 类 应 该 有 一 个 backward 方法 ， 它 与 forward 方法 相反 ， 
该 方法 接收 如 下 形状 的 两 个 数组 。 

。 [batch_size, output_sizel] 

。 [batch_ size, hidden size] 

同时 ， 返 回 具 有 如 下 形状 的 两 个 数组 。 

。 [batch_size，feature_size] 

。 [batch_size, hidden_sizel] 

这 就 是 RNNLayer 类 的 工作 原理 。 现 在 只 剩 下 描述 RNNNode 类 了 ， 它 是 RNN 的 核心 ， 也 是 
实际 执行 计算 的 地 方 。 在 开始 描述 之 前 ， 先 和 弄 清楚 RNNNode 类 及 其 变 体 在 整个 RNN 中 的 
作用 。 








6.5.2 ”RNNNode 类 的 基本 元 素 

在 大 多 数 情况 下 ， 学 习 RNN 会 从 讨论 RNNNode 类 的 工作 方式 开始 。 但 是 ， 要 想 理解 RNN,， 
相 比 这 一 部 分 ， 前 面 在 示意 图 和 代码 中 所 介绍 的 内 容 更 为 重要 ， 包 括 数据 的 结构 以 及 数据 
和 隐藏 状态 在 层 和 时 间 之 间 的 路 由 方式 。 因 此 ， 本 章 直 到 现在 才 来 讨论 RNNNode 类 的 工作 
方式 。 事 实证 明 ， 可 以 采用 多 种 方法 来 实现 RNNNode 类 ， 基 于 给 定时 间 步 长 实际 处 理 数 据 ， 
以 及 更 新 层 的 隐藏 状态 。 还 有 一 种 方法 可 以 生成 “常规 “的 RNN， 这 种 RNN 常 被 称 作 
vanilla RNN， 下 文 会 使 用 这 个 术语 。 然 而 ， 还 有 其 他 更 复杂 的 方法 可 以 生成 不 同 的 RNN。 
例如 ， 其 中 有 一 种 变 体 叫 作 GRU， 代 表 “ 门 控 循 环 单元 ”(Gated Recurrent Unit) 。 通 常 ， 
GRU 和 其 他 RNN 变 体 被 描述 成 与 vanilla RNN 截然 不 同 的 对 象 。 但 是 ， 所 有 RNN 变 体 都 
共享 目前 所 见 的 层 的 结构 ， 了 解 这 一 点 很 重要 。 例 如 ， 它 们 都 以 相同 的 方式 及 时 向 前 传递 
数据 ， 在 每 个 时 间 步 长 中 更 新 它们 的 隐藏 状态 ， 唯 一 的 区 别 在 于 这 些 “ 节 点 ”具有 不 同 的 
内 部 工作 方式 。 


强调 一 点 : 如果 实现 GRULayer 类 而 不 是 RNNLayer 类 ， 则 代码 将 完全 相同 ! 以 下 代码 仍 将 
构成 前 向 传递 的 核心 : 



























































sequence_length = x_seq_in.shape[1] 
x_seq_out = np.zeros((batch_size，sequence_Length，seLf .output_size)) 
for t in range(sequence_Length ) : 

x_in = x_seq_ in[:, t, :] 

y_out, H_in = self.nodes[t].forward(x_in, H_in, self.params) 


x_seq_out[:, t, :] = y_out 














唯一 的 变化 就 是 seLf.nodes 中 的 每 个 “节点 ”都 是 GRUNode 类 ， 而 不 是 RNNNode 类 。 同 理 
backward 方法 也 是 相同 的 。 





对 vanilla RNN 最 常见 的 变 体 LSTM 单元 来 说 ， 以 上 描述 几乎 是 完全 正确 的 。 唯 一 的 区 
别 是 ，LSTMLayer 要 求 该 层 “ 记 住 ”两 个 量 ， 并 在 序列 元 素 随时 间 向 前 传递 时 进行 更 新 : 
除了 “隐藏 状态 ”， 该 层 还 存储 了 “单元 状态 ”， 这 样 可 以 更 好 地 对 长 期 依赖 关系 进行 建 
模 。 因 此 ， 在 实现 方式 上 ，LSTMLayer 类 相对 于 RNNLayer 类 存在 一 些 细微 的 差异 。 例 如 ， 
LSTMLayer 类 在 整个 时 间 步 长 中 将 有 两 个 ndarray 来 存储 层 的 状态 ， 有 具体 如 下 。 





























。 一 个 ndarray 是 start_H， 形 状 为 [1，hidden_size]， 表 示 层 的 隐藏 状态 。 
一 个 ndarray 是 start_C， 形 状 为 [1，cell_size]， 表示 层 的 单元 状态 。 








注 6: 只 是 一 种 约定 俗 成 的 常见 用 法 ， 没 有 有 具体 标准 。 
注 7: Long Short-Term Memory， 长 短期 记忆 .。 




















因此 ， 每 个 LSTMNode 类 都 应 接受 输入 、 隐 藏 状态 以 及 单元 状态 。 在 前 向 传递 时 ， 代 码 如 下 
所 示 : 





y_out, H_in, C_in = self.nodes[t].forward(x_in, H_in, C_in self.params) 


在 后 向 传递 时 ， 代 码 如 下 所 示 : 


grad_out, h_in grad, c_in grad = \ 
self.nodes[t].backward(x_out_grad, h_in_grad, c_in_grad, self.params) 








除了 上 面 提 到 的 三 种 情况 ，RNN 还 有 其 他 许多 变 体 ， 其 中 一 些 除 了 隐藏 状态 外 还 具有 单 
元 状态 ， 比 如 带 有 “ 帘 筷 连接 ”(peephole connection) 的 LSTM;， 另 一 些 则 仅 维持 一 个 隐 
藏 状态 。 与 前 面 所 介绍 的 变 体 一 样 ， 由 LSTMPeepholeConnectionNode 组 成 的 层 将 以 相同 的 
方式 输入 RNNLayer 类 ， 因 此 具有 相同 的 forward 方法 和 backward 方法 。RNN 的 基本 结构 
包括 在 前 向 传递 过 程 中 数据 在 备 层 之 间 和 各 时 间 步 长 之 间 的 路 由 方式 ， 以 及 在 后 向 传递 过 
程 中 沿 相 反方 向 路 由 的 方式 ， 正 是 这 样 的 结构 让 RNN 显得 独特 。 尽 管 vanilla RNN 和 基于 
LSTM 的 RNN 在 性 能 上 有 显著 差异 ， 但 它们 之 间 的 结构 差异 实际 上 相对 较 小 。 


























接 下 来 看 一 下 RNNNode 类 的 实现 。 


6.5.3 vanilla RNNNode 类 


RNN 一 次 接收 一 个 序列 元 素 的 数据 。 如 果 要 预测 石油 价格 ， 则 在 每 个 时 间 步 长 中 ，RNN 
都 会 收 到 有 关 该 时 间 步 长 用 于 预测 价格 的 特征 信息 。 另 外 ，RNN 在 其 “隐藏 状态 ”中 持 有 
一 个 编码 ， 该 编码 表示 在 先前 时 间 步 长 中 所 发 生 的 事情 的 累积 信息 。 我 们 希望 组 合 这 两 种 
数据 ， 即 时 间 步 长 的 特征 以 及 所 有 先前 时 间 步 长 的 累积 信息 ， 使 之 成 为 该 时 间 步 长 的 预测 
以 及 更 新 后 的 隐藏 状态 。 


要 了 解 RNN 如 何 完成 这 个 任务 ， 可 以 回顾 常规 神经 网 络 中 的 情况 。 在 前 馈 神经 网 络 中 ， 
每 一 层 都 从 前 一 层 接 收 一 组 “已 学 习 的 特征 ”， 每 一 个 特征 都 是 神经 网 络 已 “学 习 ” 的 有 
用 的 原始 特征 的 组 合 。 然 后 ， 该 层 将 这 些 特 征 与 权重 第 阵 相 乘 ， 其 中 ， 权 重 什 阵 可 以 让 该 
层 学 习 特 征 ， 而 这 些 特 征 是 该 层 接收 的 作为 输入 的 特征 的 组 合 。 为 了 分 别 对 输出 进行 层级 
设置 和 归 一 化 ， 可 以 向 这 些 新 特征 添加 一 个 偏差 项 ， 并 将 其 输入 到 一 个 激活 函数 中 。 












































在 RNN 中 ， 我 们 希望 更 新 后 的 隐 苞 状态 是 输入 和 旧 隐 着 状态 的 组 合 。 因 此 ， 与 常规 神经 
网 络 类 似 ， 执 行 下 面 两 个 操作 。 


1. 将 输入 和 隐藏 状态 连接 起 来 。 然 后 ， 将 这 个 值 乘 以 一 个 权重 和 矩阵， 加 上 一 个 偏差 项 ， 接 
着 将 结果 输入 到 Tanh 激活 函数 中 。 这 便 是 更 新 后 的 隐藏 状 态 。 

2. 用 权重 怎 阵 乘 以 这 个 新 的 隐藏 状态 ， 该 矩阵 将 隐藏 状态 转换 为 具有 所 需 维 度 的 输出 。 例 
如 ， 在 每 个 时 间 步 长 中 ， 如 果 都 使 用 这 个 RNN 预测 单个 连续 值 ， 则 将 隐藏 状态 乘 以 一 
个 大 小 为 [hidden_size，1] 的 权重 矩阵 。 























148 | 第 6 章 


因此 ， 更 新 后 的 隐藏 状态 将 是 一 个 函数 ， 该 函数 涉及 在 该 时 间 步 长 中 接收 的 输入 以 及 先前 
的 隐藏 状态 ， 而 输出 则 是 把 这 个 更 新 后 的 隐藏 状态 输入 给 全 连接 层 进行 运算 后 所 得 到 的 结 
果 。 接 下 来 对 这 个 过 程 进行 编 加 。 





1. RNNNode 类 : 前 向 传递 

. 看 的 代码 实现 了 上 面 描述 的 步 又。 注意， 就 像 稍 后 要 处 理 的 GRU 和 LSTM 一 样 (以 及 
第 1 章 中 针对 简单 数学 函数 所 执行 的 操作 )， 这 里 将 前 向 传递 中 计算 出 的 所 有 量 都 作为 属 

性 存储 在 RNNNode 类 中 ， 这 样 可 以 使 用 它们 来 计算 后 向 传递 
































def forward(self, 

x_in: ndarray, 

H_in: ndarray， 

params_dict: Dict[str, Dict[str, ndarray]] 

) -> Tuple[ndarray]: 
param x: 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
param H_prev: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
return seLf.x_out: 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
return seLf.H， 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
self.X_in 
self.H_in 


= Xn 
= H_in 


seLf.Z = np.column_stack((x_in, H_in)) 


self.H int = np.dot(self.Zz, params_dict['W_f']['value']) \ 
+ params_dict['B_f']['value'] 


self.H out = tanh(self.H_int) 


self.X_out = np.dot(self.H_out, params_dict['W_v']['value']) \ 
+ params_dict['B_v']['value'] 


return self.X out, self.H_out 

















还 需要 注意 一 点 : 由 于 这 里 没有 使 用 Param0peration， 因 此 需要 以 其 他 方式 存储 参数 。 我 
们 将 参数 存储 在 params_dict 字典 中 ， 该 字典 按 名 称 引用 参数 。 此 外 ， 每 个 参数 都 有 两 个 
键 : value 和 deriv， 分 别 存储 实际 参数 值 及 其 关联 的 梯度 。 在 本 例 的 前 向 传递 中 ， 仅 使 用 
value 键 。 





























2. RNNNode 类 : 后 向 传递 

假设 给 定 损失 相对 于 RNNNode 类 输出 的 梯度 ， 那 么 RNNNode 类 的 后 向 传递 仅 计算 损失 相对 
Node 类 输入 的 梯度 值 。 可 以 使 用 类 似 第 1 章 和 第 2 章 讨论 的 逻辑 来 执行 此 过 程 ， 因 
为 可 以 将 RNNNode 类 表示 为 一 系列 运算 ， 所 以 可 以 简单 地 计算 每 个 运算 在 其 输入 处 的 导 
数 ， 然 后 将 这 些 导 数 依次 与 之 前 的 导数 相 乘 (注意 正确 处 理 和 矩阵 乘法 )， 最 后 得 到 一 个 
ndarray， 表 示 每 个 输入 的 损失 梯度 。 以 下 代码 实现 了 这 一 点 : 














def backward(self, 
X_out_ grad: ndarray， 
H_out_ grad: ndarray， 


params_dict: Dict[str, Dict[str, ndarray]]) -> Tuple[ndarray]: 


param x_out_grad: numpy array of shape (batch size, vocab_size) 
param h_out_grad: numpy array of shape (batch_ size, hidden_size) 
param RNN_Params: RNN_Params object 

return x_in grad: numpy array of shape (batch_size, vocab_size) 
return h_in grad: numpy array of shape (batch_size, hidden size) 
param x_out_grad: 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
param h_out_grad: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
param RNN_Params: RNN_Params 对 象 。 

return x_in_grad: 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
return h_in_grad: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
assert_same_shape(X_out_grad, self.X_out) 
assert_same_shape(H_out_grad, self.H_out) 


params_dict['B_v']['deriv'] += X_out_grad.sum(axis=0) 
params_dict['W_v']['deriv'] += np.dot(self.H out.T, X_out_grad) 


dh = np.dot(X_out_grad, params_dict['W_v']['value'].T) 
dh += H_out_grad 


dH_int = dh * dtanh(self.H_int) 


params_dict['B_ 
params_dict['W_ 


']['deriv'] += dH_int.sum(axis=0) 
']['deriv'] += np.dot(self.Z.T, dH_int) 


hh 


dz = np.dot(dH_int, params_dict['W_f']['value'].T) 


X_in_ grad 
H_in_grad 


dz[:, :self.X_in.shape[1]] 
dz[:, self.X_in.shape[1]:] 


assert_same_shape(X_out_grad, self.X_out) 
assert_same_shape(H_out_grad, self.H_out) 


return X_in_grad, H_in_grad 


注意 ， 就 像 之 前 的 0peration 类 一 样 ，backward 方法 的 输入 形状 必须 与 forward 方法 的 输 
出 形状 相 匹配 ，backward 方法 的 输出 形状 则 必须 与 forward 方法 的 输入 形状 相 匹 配 。 





6.5.4 ” vanilla RNNNode 类 的 局 限 性 
注意 ，RNN 的 目的 是 为 数据 序列 中 的 依赖 关系 建 模 。 以 对 石油 价格 建 模 为 例 ， 





这 意味 着 


应 该 能 够 揭示 在 过 去 几 个 时 间 步 长 中 看 到 的 特征 序列 与 下 一 个 时 间 步 长 中 油价 变化 之 间 的 
关系 。 但 是 ， 这 里 的 “ 几 个 时 间 步 长 ”应 该 是 多 长 时 间 呢 ? 可 以 想象 一 下 ， 以 石油 价格 为 
例 ， 对 于 预测 明天 的 石油 价格 ， 上 昨天 的 石油 价格 〈 前 一 个 时 间 步 长 ) 要 比 前 天 的 石油 价格 





更 为 重要 ， 而 且 时 间 越 靠 前 ， 重 要 性 往往 越 小 。 
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尽管 上 面 这 种 情况 在 许多 实际 问题 中 成 立 ， 但 是 在 某 些 领域 中 还 是 可 以 应 用 RNN， 而 
且 在 这 个 过 程 中 可 以 学 习 超 长 期 的 依赖 关系 。 一 个 典型 的 例子 就 是 语言 建 模 (language 
modeling)， 即 在 非常 长 的 一 系列 现 有 单词 或 字符 的 基础 上 ， 构 建 一 个 可 以 预测 下 一 个 字 
符 、 单 词 或 单词 段 的 模型 。 这 种 应 用 程序 非常 普遍 ， 本 章 稍 后 将 讨论 一 些 特定 于 语言 建 模 
的 细节 。vanilla RNN 通常 不 能 完全 处 理 这 种 情况 。 由 于 我 们 在 前 面 已 经 了 解 了 关于 它 的 详 
细 信 息 ， 因 此 可 以 理解 其 中 的 原因 : 在 每 个 时 间 步 长 中 ， 隐 藏 状态 都 将 乘 以 该 层 中 所 有 时 
间 步 长 的 同一 权重 矩阵 。 假 如 一 次 又 一 次 地 把 一 个 数字 乘 以 一 个 值 x， 这 时 会 发 生 什 么 ? 
不 难 想 象 ， 如 果 x<1， 则 数字 呈 指 数 下 降 到 0; 如 果 x>1， 则 数字 呈 指 数 增长 到 正 无 穷 。 
RNN 具有 相同 的 问题 : 在 较 长 的 时 间 范 围 内 ， 由 于 同一 组 权重 在 每 个 时 间 步 长 中 都 乘 以 隐 
藏 状态 ， 因 此 这 些 权 重 的 梯度 会 变 得 非常 小 或 非常 大 。 前 者 称 为 梯度 消失 问题 (vanishing 
gradient problem)， 后 者 称 为 梯度 爆炸 问题 (exploding gradient problem) 。 无 论 是 哪 种 情 
况 ， 对 于 训练 RNN 来 实现 高 质量 语言 建 模 所 需 的 超 长 期 的 依赖 关系 (50 ~ 100 个 时 间 步 
长 )， 两 者 都 让 这 个 过 程 更 加 困难 。 接 下 来 将 介绍 对 vanilla RNN 架构 的 两 种 常用 改进 ， 这 
两 种 改进 方法 都 可 以 大 大 缓解 上 述 问 题 。 


























































































































6.5.5 ”GRUNode 类 


vanilla RNN 将 输入 和 隐 蕊 状态 组 合 起 来 ， 利 用 和 矩阵 乘法 来 确定 如 何 将 隐藏 状态 中 的 信息 与 
新 输入 中 的 信息 进行 “加 权 ”， 进 而 预测 输出 。 这 里 使 用 更 高 级 的 RNN 变 体 ， 主 要 是 考虑 
到 为 了 建 模 长 期 依赖 关系 〈 例 如 语言 中 存在 的 依赖 关系 ) ， 我 们 有 时 候 会 收 到 信息 ， 这 些 
信息 指出 了 需要 “忘记 ”或 “ 重 置 ” 的 隐藏 状态 。 举 一 个 简单 的 例子 ， 比 如 句点 “.” 或 
冒号 “:”， 如 果 语 言 模型 收 到 其 中 一 个 ， 它 就 知道 应 该 忘记 之 前 出 现 的 字符 ， 并 开始 按 字 
符 序列 建立 新 的 模式 。 

















vanilla RNN 的 第 一 个 简单 变 体 是 GRU， 即 门 控 循环 单元 ， 之 所 以 这 样 命名 ， 是 因为 输入 
和 先前 的 隐藏 状态 是 通过 一 系列 “ 门 ”进行 传递 的 。 


(1) 第 一 个 门类 似 于 在 vanilla RNN 中 发 生 的 运算 : 将 输入 状态 和 隐藏 状态 连接 在 一 起 ， 乘 
以 一 个 权重 和 矩阵， 然后 传递 给 一 个 sigmoid 运算 。 可 以 将 它 的 输出 看 作 “ 更 新 ” 门 。 

(2) 第 二 个 门 可 以 理解 为 “复位 ” 门 : 将 输入 和 隐藏 状态 连接 起 来 ， 乘 以 一 个 权重 矩阵 ， 执 
行 sigmoid 运算 ， 然 后 再 乘 以 先前 的 隐藏 状态 。 在 给 定 输 入 的 情况 下 ， 可 以 让 神经 网 络 
“学 习 忘 记 ” 隐 藏 状态 中 的 内 容 。 

(3) 让 第 二 个 门 的 输出 乘 以 另 一 个 矩阵 ， 并 执行 Tanh 函数 ， 输 出 是 新 隐藏 状态 的 一 个 “ 候 
选 状态 ”。 

(4) 将 隐藏 状态 更 新 为 更 新 门 并 乘 以 新 隐藏 状态 的 “候选 状态 ”， 再 加 上 旧 隐 藏 状态 与 “1 
减 去 更 新 门 ”的 乘积 。 























本 章 将 介绍 vanilla RNN 的 两 个 高 级 变 体 : GRU 和 LSTM。LSTM 更 受 欢 迎 ， 也 
比 GRU 出 现 得 早 。 不 管 怎 样 ，GRU 是 LSTM 的 简单 版 本 ， 并 且 更 直接 地 说 明了 
“ 门 ”这 一 概念 如 何 使 RNN 在 收 到 输入 后 能 够 “学 习 重 置 ” 隐 藏 状态 ， 这 就 是 首 
先 介绍 它 的 原因 。 























1. GRUNode 类 : 示意 图 

6-8 将 GRUNode 类 描绘 为 一 系列 门 。 每 个 门 都 包含 Dense 层 的 运算 : 与 权重 和 矩阵 相 乘 ， 
加 上 偏差 项 并 将 结果 输入 给 一 个 激活 函数 。 所 使 用 的 激活 函数 可 以 是 sigmoid 函数 ， 这 种 
情况 下 结果 的 范围 是 0 ~ 1， 也 可 以 是 Tanh 函数 ， 这 种 情况 下 范围 是 -1 ~ 1。 接 下 来 生 
成 的 每 个 中 间 ndarray 的 范围 都 会 在 数组 名 称 下 显示 。 
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图 6-8: 数据 流向 前 输入 到 一 个 GRUNode 类 中 ， 通 过 门 并 生成 x_out 和 H_out 


在 图 6-8、 图 6-9 和 图 6-10 中 ， 节 点 中 带 有 ;in 后 级 的 为 输入 ， 带 有 out 后 级 的 为 输出 ， 其 
余 为 计算 出 的 中 间 量 。 所 有 权重 (未 直接 显示 ) 都 包含 在 门 中 。 


注意 ， 要 对 此 进行 反 向 传播 ， 只 能 将 其 表示 为 一 系列 Operation 类 ， 计 算 每 个 0peration 
类 相对 于 其 输入 的 导数 ， 然 后 将 结果 相 乘 。 这 里 没有 明确 展示 这 一 点 ， 而 是 将 门 〈 实 际 上 
是 3 个 运算 ) 显示 为 一 个 块 。 尽 管 如 此 ， 在 这 一 点 上 ， 我 们 仍然 知道 如 何 通过 构成 每 个 门 
的 Operation 类 进行 反 向 传播 ， 并 且 由 于 “ 门 ”的 概念 贯穿 于 整个 对 RNN 及 其 变 体 的 描述 
中 ， 因 此 这 里 坚持 使 用 这 种 表示 方法 。 















































实际 上 ， 图 6-9 显示 了 vanilla RNNNode 类 的 一 种 表示 方式 ， 其 中 使 用 了 “ 门 ”的 概念 。 
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图 6-9: 数据 流向 前 输入 到 一 个 RNNNode 类 中 ， 仅 通过 两 个 门 并 生成 X out 和 H_out 


可 见 ， 针 对 之 前 描述 的 构成 vanilla RNNNode 类 的 0peration 类 ， 另 一 种 解决 方法 是 将 输入 
和 隐藏 状态 传递 给 两 个 门 。 














2. GRUNode 类 : 代码 
以 下 代码 为 前 面 所 述 的 GRUNode 类 实现 了 前 向 传递 : 
def forward(self, 
X_in: ndarray， 
H_in: ndarray， 
params_dict: Dict[str，Dict[str，ndarray]]) -> TupLe[ndarray] : 
param X_in， 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
param H_in， 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
return self.X_out: 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
return self.H_out: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
self,X in = Xin 
self.H in = H_in 
# 重 置 门 
self.X_r = np.dot(X_in, params_dict['W_xr']['value']) 
self.H_r = np.dot(H_in, params_dict['W_hr']['value']) 
# 更 新 门 
self.X_u = np.dot(X_in, params_dict['W xu']['value']) 
self.H yu = np.dot(H_in, params_dict['W_hu']['value']) 
# 门 
self.r_int = self.X_r + self.H_r + params_dict['B_r']['value'] 
self.r = sigmoid(self.r_int) 
self.uyu int = self.X_r + self.H_r + params_dict['B_u']['value'] 
self.y = sigmoid(self.u_int) 
# 新 状态 
self.h_reset = self.r * H_in 


seLf.X_h = np.dot(X_in, params_dict['W_xh']['value']) 
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seLf.H_h = np.dot(self.h_reset, params_dict['W_hh']['value']) 
self.h_bar_int = seLf.X_h + self.H_h + params_dict['B_h']['value'] 
self.h_bar = np.tanh(self.h_bar_int) 


self.H out = self.u * self.H in + (1 - self.u) * seLf.h_bar 


self.X out = ( 
np.dot(self.H_out, params_dict['W _v']['value']) \ 
+ params_dict['B_v']['value'] 


) 
return self.X out, self.H_out 
注意 ， 这 里 没有 明确 地 将 X_in 和 H_in 连接 起 来 ， 与 RNNNode 类 将 它们 一 起 使 用 不 同 ， 


GRUNode 类 会 独立 使 用 它们 。 具 体 来 说 ，self.h_reset = self.r * H_in 只 使 用 了 H_in, 而 
没有 使 用 X_in。 








可 以 在 本 书 的 随 书 文件 中 找到 backward 方法 "。 它 只 是 向 后 传递 到 那些 组 成 GRUNode 类 的 运 
算 ， 计 算 每 个 运算 相对 于 其 输入 的 导数 ， 并 将 结果 相 乘 。 











6.5.6 LSTMNode 类 


LSTM 是 vanilla RNN 最 流行 的 变 体 。 部 分 原因 是 ， 它 诞生 于 深度 学 习 早 期 ， 可 以 追 济 到 
1997 年 "。 直 到 近 几 年 , 对 LSTM 赫 代 品 的 研究 才 获 得 进展 , 例如 , GRU 是 在 2014 年 提出 的 。 


和 GRU 一样， 提出 LSTM 的 动机 是 希望 让 RNN 在 接收 新 输入 时 能 够 “ 重 置 ” 或 “忘记 ” 
其 隐藏 状态 。 在 GRU 中 ， 这 是 通过 一 系列 门 提 供 输入 和 隐藏 状态 来 实现 的 ， 并 且 可 以 使 
用 这 些 门 计算 新 隐 荐 状态 (比如 使 用 self.r 门 计算 setf.h_bar)， 然 后 使 用 新 隐藏 状态 和 
旧 隐 藏 状态 的 加 权 平 均值 来 计算 最 终 隐 藏 状 态 ， 这 个 过 程 由 更 新 门 进行 控制 : 


























seLf.H_out = self.u * self.H in + (1 - self.u) * seLf.h_bar 


相反 ，LSTM 使 用 单独 的 “状态 ”向 量 (“ 单 元 状态 ”) 来 判断 是 否 “忘记 ”隐藏 状态 中 的 
内 容 。 然 后 ， 使 用 其 他 两 个 门 来 控制 应 重 置 或 更 新 单元 状态 中 内 容 的 程度 ， 并 使 用 第 四 个 
门 根据 最 终 单 元 状态 来 确定 隐藏 状态 更 新 的 程度 “。 








1. LSTMNode 类 : 示意 图 
图 6-10 展示 了 LSTMNode 类 的 示意 图 ， 其 中 的 运算 表示 为 门 。 








注 8: 请 从 图 灵 社 区 下 载 随 书 文件 : i 

注 9: 参见 Sepp Hochreiter 等 人 于 1997 年 发 表 的 LSTM 原始 论文 “Long Short-Term Memory”。 

注 10: 至 少 LSTM 的 标准 变 体 遵循 这 个 规则 。 前 面 提 到 还 有 其 他 变 体 , 例如 “ 带 帘 孔 连接 的 LSTM”, 其 中 ， 
门 的 布置 方式 有 所 不 同 。 
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图 6-10: 数据 流向 前 输入 到 一 个 LSTMNode 类 中 ， 经 过 一 系列 门 并 分 别 输出 更 新 后 的 单元 状态 C_out、 
隐藏 状态 H_out 以 及 实际 的 输出 X_out 


2. LSTMNode 类 : 代码 
与 GRUNode 类 一 样 ， 本 书 的 随 书 文件 也 提供 了 LSTMNode 类 的 完整 代码 ， 包 括 backward 方法 
以 及 展示 节点 如 何 适 应 LSTMLayer 类 的 示例 “。 这 里 仅 展示 forward 方法 : 




















def forward(self, 

X_in: ndarray， 

H_in: ndarray， 

C_in: ndarray， 

params_dict: Dict[str，Dict[str，ndarray]]): 
param X_in， 形状 为 [batch_size，vocab_size] 的 numpy 数 组 。 
param H_in:， 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
param C_in， 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
return seLf.x_out: 形状 为 [batch_size，output_size] 的 numpy 数 组 。 
return self.H: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 
return self.C: 形状 为 [batch_size，hidden_size] 的 numpy 数 组 。 


seLf.X_in 
self.C_in 


X_in 
Cn 


seLf.Z = np.column_stack((X_in, H_in)) 

self.f_ int = ( 
np.dot(self.Z, params_dict['W_f']['value']) \ 
+ params_dict['B_f']['value'] 


self.f = sigmoid(self.f_int) 


self Lt Tint = ( 
np.dot(self.Z, params_dict['W i']['value']) \ 
+ params_dict['B_i']['value'] 


) 

















注 11: 请 从 图 灵 


Ne 


二 区 下载 随 书 文件 ，ituring.cn/book/2759。 一 一 编者 注 
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self.i = sigmoid(self.i int) 


self.C bar_int = ( 

np.dot(self.Z, params_dict['W_c']['value']) \ 

+ params_dict['B_c']['value'] 

) 
self.C bar 
self.C_ out 


tanh(self.C_ bar_int) 
self.f * C in + self.i * self.C_ bar 


self.o int = ( 
np.dot(self.Z, params_dict['W_o']['value']) \ 
+ params_dict['B_o']['value'] 
) 

self.o = sigmoid(self.o_int) 

seLf.H_out = self.o * tanh(self.C_out) 


self.X out = ( 
np.dot(self.H_out, params_dict['W_v']['value']) \ 
+ params_dict['B_v']['value'] 


) 


return self.X out, self.H_out, self.C out 


这 是 RNN 框架 中 启动 模型 训练 所 需 的 最 后 一 个 元 素 ! 还 有 一 个 应 该 讨论 的 主题 : 如 果 要 
将 文本 数据 输入 到 RNN 中 ， 那 么 应 该 用 哪 种 形式 来 表示 文本 数据 呢 ? 


6.5.7 ”基于 字符 级 RNN 语 言 模 型 的 数据 表示 

语言 建 模 是 RNN 最 常见 的 任务 之 一 。 如 何 将 字符 序列 重 塑 为 训练 数据 集 ， 从 而 训练 RNN 
来 预测 下 一 个 字符 ?最 简单 的 方法 是 使 用 独 热 编 码 (one-hot encoding)， 下 面 介绍 它 的 工 
作 方 式 。 首 先 ， 每 个 字母 都 表示 为 一 个 癌 量 ， 其 维 数 等 于 词汇 量 , 或 者 等 于 将 接受 神经 
网 络 训练 的 整个 文本 语料库 中 的 字母 数 (该 值 预先 计算 并 硬 编码 为 神经 网 络 中 的 超 参数 ) 。 
然后 ， 将 向 量 中 对 应 字母 位 置 上 的 值 设 为 1， 其 他 位 置 上 的 值 设 为 0。 最 后 ， 将 每 个 字母 
的 向 量 简单 地 连接 在 一 起 ， 获 得 字母 序列 的 整体 表示 。 


这 里 有 一 个 简单 的 示例 ， 基 中 展示 了 一 个 包含 字母 a、b、c 和 4 的 词汇 表 ， 我们 将 a 称 为 
第 一 个 字母 ，5b 称 为 第 二 个 字母 ， 以 此 类 推 “ 












































11011011010 10000 
01111011011 01001 
abcdb 一 = 
01101111010 00100 
01101011L0 00010 


这 个 二 维 数组 将 代替 一 批 序列 中 的 形状 为 (sequence_Length， num_features) = (5，4) 的 
观测 值 。 也 就 是 说 ， 如 果 文 本 是 abcdba (长 度 为 6) ， 并 且 需 要 在 数组 中 输入 长 度 为 5 的 
序列 ， 则 第 一 个 序列 将 转换 为 以 上 矩阵， 第 二 个 序列 则 将 转换 为 以 下 和 矩阵 : 








注 12: 这 个 顺序 是 任意 的 ， 可 以 随机 定义 。 
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0|0|01011 00001 
1I0l0l11I0 10010 
bcdba 一 S 
0|11011010 01000 
01011110100 00100 





然后 将 它们 串联 在 一 起 ， 创 建 一 个 形状 为 [batch_size， sequence_Length，vocab_size] = 
(2，5，4) 的 RNN 输入 。 继 续 使 用 这 种 方法 ， 可 以 获取 原始 文本 并 将 其 转换 为 一 批 序列 ， 
然后 输入 到 RNN 中 。 


在 本 书 的 随 书 文件 中 ， 我 把 这 种 方法 作为 可 以 接收 原始 文本 的 RNNTrainer 类 的 一 部 分 进行 
码 ， 同 时 使 用 这 里 介绍 的 技术 对 其 进行 预 处 理 ， 然 后 分 批 将 其 输入 到 RNN 中 。 


6.5.8 其 他 语言 建 模 任务 

虽然 本 章 在 前 面 没 有 强调 这 一 点 ， 但 是 从 前 面 的 代码 可 以 看 出 ， 在 所 有 RNNNode 类 的 变 体 
中 ，RNNLayer 类 所 输出 的 特征 数量 都 可 以 与 输入 的 不 同 。 所 有 变 体 的 最 后 一 步 都 是 将 神经 
网 络 的 最 终 隐 藏 状态 乘 以 通过 params_dict[W_v] 获取 的 权重 和 矩阵。 权重 矩阵 的 第 二 个 维 
度 将 确定 Layer 类 输出 的 维 数 ， 这 样 一 来 ， 只 需 更 改 每 个 Layer 类 中 的 output_size 参数 ， 
就 可 以 将 相同 的 架构 用 于 不 同 的 语言 建 模 任务 。 
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比方 说 ， 目 前 我 们 只 考虑 通过 “预测 下 一 个 字符 ”来 构建 一 个 语言 模型 。 在 这 种 情况 下 ， 输 
出 大 小 将 等 于 词汇 表 的 大 小 (词汇 量 )， 即 output_size = vocab_size。 但 是 ， 对 于 情感 分 
析 之 类 的 内 容 ， 传 入 的 序列 可 能 只 是 带 有 “0” 或 “1” 的 标签 (表示 正 或 负 )。 这 时 不 仅 
output_size = 1， 而 且 只 有 在 整个 序列 传递 完成 之 后 ， 才 将 输出 与 目标 进行 比较 ， 如 图 6-11 
所 示 。 




















tH [batch_size,1,1] 




















图 6-11: 对 于 情感 分 析 ，RNN 将 预测 值 与 实际 值 进行 比较 ， 并 仅 针对 最 后 一 个 序列 元 素 的 输出 产 
生 梯 度 。 反 向 传播 将 照常 进行 ， 每 个 节点 (不 包括 最 后 一 个 节点 ) 仅 接 收 一 个 所 有 元 素 都 为 0 的 X_ 
grad_out 数组 














因此 ， 这 个 框架 可 以 很 容易 地 适应 不 同 的 语言 建 模 任务 。 事 实 上 ， 它 可 以 适应 所 有 和 针对 连 
续 性 数据 的 建 模 任务 ， 并 且 可 以 一 次 将 一 个 序列 元 素 输入 到 神经 网 络 中 。 


在 总 结 本 节 之 前 ， 先 来 看 关于 RNN 的 一 个 不 常 讨论 的 方面 : 可 以 对 不 同 种 类 的 层 (GRULayer 
类 、LSTMLayer 类 和 其 他 变 体 ) 进行 混合 和 匹配 。 






































6.5.9 组 合 RNNLayer 类 的 变 体 

堆肥 不 同 种 类 的 RNNLayer 类 很 简单 : 每 个 RNN 都 会 输出 一 个 形状 为 [batch_size， 
sequence_Length， output_size] 的 ndarray， 可 以 将 其 传递 到 下 一 层 。 与 Dense 层 一 样 ， 
不 必 指 定 input_shape。 在 给 定 输 入 的 情况 下 ， 只 需 根 据 层 接收 到 的 第 一 个 ndarray 输入 将 
权重 设置 为 合适 的 形状 。 因 此 ，RNNModel 可 以 具有 以 下 self.layers 属性 : 


























[RNNLayer(hidden_size=256, output_size=128)， 

RNNLayer (hidden_size=256, output_size=62)] 
与 全 连接 神经 网 络 一 样 ， 只 需 确 保 最 后 一 层 生 成 所 需 维 数 的 输出 即 可 。 这 就 像 在 处 理 
MNIST 问题 的 全 连接 神经 网 络 中 ， 最 后 一 层 的 维 数 必 须 为 10， 如 果 这 里 要 处 理 一 个 大 小 
为 62 的 词汇 表 并 预测 下 一 个 字符 ， 那 么 最 后 一 层 的 output_size 参数 必须 为 62。 


在 学 习 完 本 章 之 后 ， 有 一 点 应 该 很 清楚 : 因为 前 文 介绍 的 每 种 层 都 具有 相同 的 基础 结构 ， 
其 中 包含 feature_size 维 的 输入 序列 和 output_size 维 的 输出 序列 ， 所 以 可 以 轻松 地 堆 县 
不 同 种 类 的 层 。 例 如 ， 可 以 训练 一 个 具有 以 下 seLf .Layers 属性 的 RNNModet 
[GRULayer(hidden_size=256, output_size=128)， 
LSTMLayer (hidden_size=256, output_size=62)] 
换 句 话说 ， 第 一 层 使 用 GRUNode 类 向 前 传递 输入 ， 然 后 将 形状 为 [batch_size， sequence_ 
Length，128] 的 ndarray 传递 到 下 一 层 ， 下 一 层 随 后 将 其 传递 给 该 层 的 LSTMNode 类 。 


6.5.10 ”将 全 部 内 容 整 合 在 一 起 

展示 RNN 有 效 性 的 经 典 方法 就 是 训练 模型 用 特定 的 风格 书写 文本 。 本 书 的 随 书 文件 提供 
了 完整 的 模型 示例 ， 该 模型 使 用 本 章 介绍 的 抽象 定义 ， 可 以 学 习 以 莎士比亚 的 风格 书写 文 
本 。 目 前 唯一 还 没有 展示 的 组 件 是 RNNTrainer 类 ， 该 类 遍历 训练 数据 ， 对 其 进行 预 处 理 
并 传递 给 模型 。 这 与 之 前 看 到 的 Trainer 类 的 主要 区 别 在 于 ， 对 RNN 来 说 ,一 旦 选择 了 
要 输入 的 一 批 数 据 ( 批 次 中 的 每 个 元 素 都 只 是 一 个 字符 捉 )， 就 必须 首先 对 其 进行 预 处 理 ， 
即 对 每 个 字母 进行 一 次 独 热 编 码 ， 并 将 得 到 的 向 量 连 接 成 一 个 序列 ， 从 而 将 每 个 长 度 为 
sequence_length 的 字符 串 转 换 为 形状 为 [sequence_Length，vocab_size] 的 ndarray。 为 了 
形成 要 输入 到 RNN 的 批 次 ， 这 些 ndarray 将 连接 在 一 起 ， 形 成 大 小 为 [sequence_Length， 
vocab_size，batch_size] 的 批 数 据 。 




































































但 是 ， 一旦 对 数据 进行 了 预 处 理 并 定义 了 模型 ， 就 可 以 像 前 面 介绍 的 其 他 神经 网 络 一 样 训 
练 RNN: 友 代 输入 批 次 ， 通 过 比较 模型 的 预测 与 目标 来 生成 损失 ， 然 后 反 向 传播 损失 ， 从 
而 更 新 权重 。 


6.6 小 结 


本 章 介 绍 了 RNN， 这 是 一 种 特殊 的 神经 网 络 架 构 ， 旨 在 处 理 数据 序列 而 不 是 单个 运算 。 在 
RNN 中 ， 各 层 向 前 传递 数据 ， 并 随 着 数据 的 传递 更 新 其 隐藏 状态 (在 LSTM 中 ， 更 新 它们 的 
单元 状态 )。 本 章 还 介绍 了 RNN 的 高 级 变 体 (GRU 和 LSTM)， 以 及 它们 如 何在 每 个 时 间 步 
长 中 通过 一 系列 “ 门 ”向 前 传递 数据 。 但 是 ， 由 于 这 些 高 级 变 体 在 本 质 上 以 相同 的 方式 处 理 
数据 序列 ， 因 此 它们 的 层 具有 相同 的 结构 ， 只 是 在 每 个 时 间 步 长 中 应 用 的 特定 运算 有 所 不 同 。 
通过 本 章 的 介绍 ， 你 应 该 对 RNN 有 了 一 定 的 了 解 。 第 7 章 将 对 本 书 内 容 进 行 总 结 ， 通 
过 将 深度 学 习 技术 付 诸 实践 ， 来 展示 如 何 使 用 PyTorch 框架 实现 前 面 介绍 的 所 有 内 容 。 
PyTorch 框架 是 一 款 基于 自动 微分 的 高 性 能 框架 ， 用 于 构建 和 训练 深度 学 习 模 型 。 加 油 ! 
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pyTorch 





第 5 章 和 第 6 章 分 别 从 零 开 始 实现 了 CNN 和 RNN。 不 过 ， 尽 管 有 必要 了 解 它们 的 工作 原 
理 ， 但 仅 赁 这 些 知 识 并 不 能 解决 实际 问题 。 为 此 ， 你 需要 通过 一 个 高 性 能 库 来 实现 它们 。 
当然 ， 我 们 可 以 自己 构建 一 个 高 性 能 的 神经 网 络 库 ， 但 是 那 将 需要 一 整 本 书 的 篇 幅 来 描述 
(篇 幅 只 会 更 长 )。 相 反 ， 本 章 只 介绍 PyTorch， 这 是 一 款 基于 自动 微分 且 越 来 越 流行 的 神 
经 网 络 框架 。 
































本 章 继续 遵循 前 文 的 讲述 风格 ， 在 编写 代码 时 ， 整 个 过 程 与 神经 网 络 工作 原理 的 思维 模 
型 、Layer 类 和 Trainer 类 等 的 编写 方式 相对 应 。 也 就 是 说 ， 本 章 不 会 按照 PyTorch 的 一 般 
做 法 来 编写 代码 ， 但 是 本 书 的 随 书 文件 提供 了 相关 链接 ， 可 以 在 那里 了 解 更 多 用 PyTorch 
表达 神经 网 络 的 信息 '。 在 此 之 前 ， 先 来 看 一 下 PyTorch 的 核心 数据 类 型 Tensor ,该 数据 类 
型 可 以 让 PyTorch 实现 自动 微分 ， 从 而 清晰 地 表达 神经 网 络 的 训练 过 程 。 














7.1 PylTorch Tensor 


第 6 章 展示 了 一 个 简单 的 NumberWithGrad 类 ， 它 通过 跟踪 对 它 执行 的 运算 来 累积 梯度 。 这 意 
味 着 如 果 按 照 下面 这 样 编写 ， 那么 a.grad 将 等 于 35， 它 实际 上 就 是 e 相对 于 a 的 偏 导数 。 




















a = NumberWithGrad(3) 


b=a*4 
c=b+3 
d= (a+ 2) 








注 1: 请 从 图 灵 社 区 下 载 随 书 文 件 : ituring.cn/book/2759。 编者 注 
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e=c*d 

e.backward() 
PyTorch 的 Tensor 类 相当 于 ndarrayWithGrad: 它 与 NumberWithGrad 类 似 ， 但 使 用 数组 
(如 numpy) 而 不 是 仅 使 用 float 和 int。 现 在 使 用 Tensor 重 写 前 面 的 示例 。 首 先 ， 手动 初 
始 化 Tensor: 

















a = torch.Tensor([[3., 3.,], 
[3., 3.]], requires_grad=True) 





注意 下 面 两 点 。 














就 像 处 理 ndarray 一 样 ， 可 以 通过 将 其 中 包含 的 数据 简单 地 包装 在 torch.Tensor 中 来 初 
始 化 Tensor。 

当 用 这 种 方式 初始 化 Tensor 时 ， 必 须 传 递 requires_grad = True 参数 ， 来 告诉 Tensor 
累积 梯度 。 





当 完 成 此 操作 后 ， 可 以 像 以 前 一 样 执行 计算 : 





m IN IN IN IN 


_sum = e.sum() 
_sum.backward() 


mmnmn on 


可 以 看 到 ， 与 NumberwithGrad 示例 相 比 ， 这 里 还 有 一 个 额外 的 步骤 : 在 调用 backward 方 
法 之 前 ， 必 须 先 对 e 进行 求 和 。 这 是 因为 ， 正 如 第 1 章 所 论证 的 ， 考 虑 “一 个 数 相对 于 一 
个 数组 的 导数 ”是 没有 意义 的 。 但 是 ， 可 以 计算 e_sum 相对 于 数组 a 中 每 个 元 素 的 偏 导 数 。 
事实 上 ， 可 以 看 到 结果 与 前 儿 音 是 一 致 的 : 


print(a.grad) 











tensor([[35., 35.], 
[35., 35.]], dtype=torch.float64) 


PyTorch 的 这 一 特性 可 以 用 来 定义 模型 ， 即 通过 定义 前 向 传递 、 计 算 损 失 并 在 损失 上 调用 
backward 方法 ， 来 自动 计算 每 个 parameter 相对 于 该 损失 的 导数 。 特 别 注意 ， 这 里 不 必 担 
心 前 向 传递 中 多 次 重用 相同 的 量 (回顾 前 儿童 使 用 的 Operation 框架 的 局 限 性 )。 正 如 这 个 
简单 的 示例 所 示 ， 一 旦 对 计算 的 输出 调用 backward 方法 ， 就 可 以 自动 正确 计算 梯度 。 


接 下 来 的 几 节 将 展示 如 何 使 用 PyTorch 的 数据 类 型 实现 本 书 前 面 所 介绍 的 训练 框架 。 


7.2 ”使 用 PyTorch 进 行 深度 学 习 


如 前 所 述 ， 深 度 学 习 模 型 包含 多 个 元 素 ， 这 些 元 素 通过 协同 工作 来 生成 训练 模型 。 
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。 一 个 Model 类 ， 甚 中 包含 Layer 类 
。 一 个 Optimizer 类 
。 一 个 Loss 类 


。 一 个 Trainer 类 





事实 证 明 ， 使 用 PyTorch 来 实现 Optimizer 类 和 Loss 类 都 只 需 编 写 一 行 代码 ，Model 类 和 
Layer 类 实现 起 来 也 很 简单 ， 接 下 来 将 依次 介绍 这 些 元 素 。 


7.2.1 PyTorch 元 素 : Model 类 及 其 Layer 类 


PyTorch 的 一 个 关键 特性 是 能 够 将 模型 和 层 定义 为 易于 使 用 的 对 象 ， 这 些 对 象 仅 需 从 
torch.nn.Module 类 中 继承 ， 用 于 处 理 向 后 发 送 梯 度 并 自动 存储 参数 。 本 章 稍 后 将 介绍 如 何 
把 这 些 部 分 组 合 在 一 起 。 现 在 ， 只 需 知 道 PyTorchLayer 类 可 以 写成 如 下 形式 : 


























from torch import nn, Tensor 
class PyTorchLayer(nn.Module): 


def _ init__(self) -> None: 
super().__init__() 


def forward(self, x: Tensor, 
inference: bool = False) -> Tensor: 
raise NotImplementedError() 


PyTorchModel 类 可 以 写成 如 下 形式 .: 
class PyTorchModel(nn.Module): 


def _ init__(self) -> None: 
super().__init__() 


def forward(self, x: Tensor, 
inference: bool = False) -> Tensor: 
raise NotImplementedError() 


换 句 话说 ，PyTorchLayer 类 或 PyTorchModel 类 的 每 个 子 类 都 只 需要 实现 _init_ 方 法 和 
forward 方法 ， 以 便 直接 使 用 它们 ”。 

inference 标志 位 

如 第 4 章 所 述 ， 由 于 dropout 的 应 用 ， 我 们 需要 适时 改变 模型 的 行为 ， 具 体 要 取决 于 它 是 
在 训练 模式 下 运行 还 是 在 推理 模式 下 运行 。 在 PyTorch 中 ， 可 以 通过 在 模型 或 层 (或 任何 
从 nn.Module 类 中 继承 的 对 象 ) 上 运行 mevaL， 从 而 将 模型 或 层 从 默认 的 训练 模式 切换 到 


























注 2, 用 这 种 方式 编写 Layer 类 和 Model 类 不 是 PyTorch 的 最 常见 或 推荐 的 用 法 ， 之 所 以 在 这 里 展示 这 种 方 
式 ， 是 因为 它 与 目前 介绍 的 概念 更 接近 。 如 果 使 用 PyTorch 来 构建 神经 网 络 基 本 要 素 ， 那 么 可 以 浏览 
PyTorch 官网 ， 其 中 有 更 为 常见 的 方法 。 
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推理 模式 。 此 外 ，PyTorch 提供 了 一 种 简单 的 方法 ， 可 以 使 用 apply 函数 快速 更 改 层 的 所 
有 子 类 的 行为 。 如 果 像 下 面 这 样 定义 : 


def inference mode(m: nn.Module): 
m.eval() 

















那么 可 以 在 定义 的 PyTorchModel 类 或 PyTorchLayer 类 的 每 个 子 类 的 forward 方法 中 都 包含 
如 下 代码 ， 从 而 获得 预期 的 标志 位 。 





if inference: 
self.apply(inference_mode) 


接 下 来 看 一 下 如 何 把 它们 整合 在 一 起 。 


7.2.2 ”使 用 PyTorch 实 现 神经 网 络 基 本 要 素 : DenseLayer 类 


现在 已 经 具备 了 实现 Layer 类 的 所 有 先决 条 件 ， 但 是 需要 借助 PyTorch 运算 。DenseLayer 
类 的 编写 方式 如 下 : 














class DenseLayer(PyTorchLayer): 
def _ init__(self, 
input_size: int, 
neurons: int, 
dropout: float = 1.0， 
activation: nn.Module = None) -> None: 
super().__init__() 
self.linear = nn.Linear(input_size, neurons) 
self.activation = activation 
if dropout < 1.0: 
self.dropout = nn.Dropout(1 - dropout) 
def forward(self, x: Tensor, 
inference: bool = False) -> Tensor: 
if inference: 
self.apply(inference_mode) 


x = self.linear(x) # does weight multiplication + bias 
if self.activation: 

x = self.activation(x) 
if hasattr(self, "dropout"): 

x = self.dropout(x) 


return x 


基于 nn.Linear， 我 们 看 到 了 第 一 个 PyTorch 运算 示例 ， 该 运算 自动 处 理 反 向 传播 。 这 个 
对 象 不 仅 在 前 向 传递 中 处 理 权重 乘积 和 增加 偏差 项 ， 还 会 累积 x 的 梯度 ， 从 而 在 后 向 传递 
中 正确 计算 出 损失 相对 于 参数 的 导数 。 还 要 注意 ， 由 于 所 有 PyTorch 运算 都 从 nn.Module 
类 中 继承 ， 因 此 可 以 像 数 学 函数 那样 调用 它们 。 例 如 ， 在 前 面 的 场景 中 ， 可 以 使 用 self. 
linear(x)， 而 不 是 self. linear.forward(x)。 这 对 于 DenseLayer 类 本 身 也 是 如 此 ， 我 们 将 
在 下 面 的 模型 中 使 用 它 。 
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7.2.3 示例 : 基于 PyTorch 的 波士顿 房价 模型 


使 用 Layer 类 作为 基本 要 素 ， 可 以 实现 第 2 章 和 第 3 昔 所 介绍 的 房价 模型 。 回 想 一 下 ， 这 





个 模型 只 有 一 个 带 有 sigmoid 激活 函数 的 隐藏 层 。 第 3 章 在 面向 对 象 的 





E 架 中 实现 了 这 




















一 点 ， 该 框架 具有 一 个 Layer 类 和 一 个 模型 ， 其 中 模型 包含 一 个 长 度 为 2 的 列表 作为 其 

















Layers 属性 。 同 理 ， 可 以 定义 HousePricesModel 类 ,该 类 从 PyTorchModel 类 中 继承 ， 如 下 








所 示 : 
class HousePricesModel(PyTorchModel): 
def _ init__(self, 
hidden_size: int = 13， 
hidden dropout: float = 1.0): 
super().__init__() 
seLf .dense1 = DenseLayer(13, hidden_size, 
activation=nn.Sigmoid(), 
dropout = hidden_dropout) 
self.dense2 = DenseLayer(hidden size, 1) 
def forward(self, x: Tensor) -> Tensor: 
assert_dim(x, 2) 


assert x.shape[1] == 13 


x = self.dense1(x) 
return self.dense2(x) 


然后 可 以 通过 以 下 方式 对 其 进行 实例 化 : 


pytorch_boston_model = HousePricesModel(hidden_size=13) 


注意 ， 为 PyTorch 模型 编写 单独 的 Layer 类 不 是 常规 做 法 。 更 常见 的 做 法 是 根据 正在 运行 


的 单个 运算 来 定义 模型 ， 方 法 如 下 : 
class HousePricesModel(PyTorchModel): 


def _ init__(self, 
hidden_size: int = 13): 
super().__init__() 
seLf .fc1 = nn.Linear(13, hidden_size) 
self.fc2 = nn.Linear(hidden size, 1) 


def forward(self, x: Tensor) -> Tensor: 
assert_dim(x, 2) 
assert x.shape[1] == 13 

x = self.fc1i(x) 


x = torch.sigmoid(x) 
return self.fc2(x) 
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假如 以 后 需要 自行 构建 PyTorch 模型 ， 你 可 能 希望 以 这 种 方式 编写 代码 ， 而 不 是 创建 单独 
的 Layer 类 。 即 使 在 阅读 其 他 人 的 代码 时 ， 也 总 会 看 到 与 前 面 的 代码 相似 的 内 容 。 





相 比 Layer 类 和 Model 类 ，0ptimizer 类 和 Loss 类 要 简单 得 多 ， 下 面 来 看 一 下 具体 介绍 。 


7.2.4 PyTorch 元 素 : 0ptimizer 类 和 Loss 类 
在 PyTorch 中 ，0ptimizer 类 和 Loss 类 都 可 以 通过 一 行 代码 来 实现 。 例 如 ， 第 4 章 介绍 的 
SGDMomentunm 损失 可 以 写成 如 下 形式 。 





import torch.optim as optim 
optimizer = optim.SGD(pytorch_boston model.parameters(), lr=0.001) 
在 PyTorch 中 ， 模 型 会 作为 参数 传递 给 0ptimizer 类 。 这 样 可 以 确保 优化 器 “ 指 


向 ”正确 模型 的 参数 ， 从 而 确定 每 次 迭代 要 更 新 的 内 容 (之 前 使 用 Trainer 类 完 
成 了 此 操作 )。 














on 


此 外 ， 第 2 章 介 绍 的 均 方 误差 损失 和 第 4 章 出 现 的 SoftmaxCrossEntropyLoss 可 以 简单 





mean_squared_error_Loss = nn.MSELoss() 
softmax_cross_entropy_loss = nn.CrossEntropyLoss() 


正如 前 面 的 Layer 类 ， 它 们 从 nn.Module 类 中 继承 ， 因 此 可 以 按照 与 Layer 类 相同 的 方式 
进行 调用 。 





注意 ，nn.CrossEntropyLoss 类 虽然 在 名 称 中 没有 出 现 softmax， 但 的 确 对 输入 执 
行 了 softmax 运算 ， 因 此 就 可 以 从 神经 网 络 传人 “原始 输出 ”， 而 不 是 像 以 前 那 
样 ， 传 入 已 经 通过 softmax 函数 的 输出 。 
































与 以 前 的 Layer 类 一 样 ， 由 于 这 些 Loss 类 都 从 nn.Module 类 中 继承 ， 因 此 可 以 使 用 相同 的 
方式 进行 调用 ， 例 如 使 用 Loss(x) ， 而 不 是 Loss.forward(x) 。 


7.2.5 ”PyTorch 元 素 : Trainer 类 
Trainer 类 将 模型 的 所 有 元 素 融合 在 一 起 。 它 有 什么 具体 要 求 呢 ? 可 以 看 到 ， 它 必须 实现 
用 于 训练 神经 网 络 的 通用 模式 ， 这 在 本 书 中 多 次 出 现 。 








。 将 一 批 数据 输入 模型 。 

。 将 输出 和 目标 输入 损失 函数 ， 计 算 损 失 值 。 
。 计算 所 有 参数 的 损失 梯度 。 

。 根据 某 些 规则 ， 使 用 0ptimizer 类 更 新 参数 。 
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在 PyTorch 中 ， 这 一 切 都 以 相同 的 方式 实现 ， 但 还 有 两 个 小 的 广 意 事项 。 





。 在 默认 情况 下 ，0ptimizer 类 将 在 每 次 参数 更 新 运 代 后 保留 参数 的 梯度 〈 前 面 称 为 param_ 
grads 参数 )。 要 在 下 一 次 参数 更 新 之 前 清除 这 些 梯度 ， 可 以 调用 seLf.optim.zero_grad。 
。 正如 先前 在 简单 自动 微分 示例 中 所 看 到 的 ， 要 启动 反 向 传播 ， 必 须 在 计算 损失 值 后 调用 


Loss.backward。 














这 导致 在 整个 PyTorch 训练 循环 中 出 现 以 下 代码 ， 实 际 上 它们 将 在 PyTorchTrainer 类 
中 使 用 。 正 如 在 前 面 章节 的 Trainer 类 中 所 做 的 那样 ，PyTorchTrainer 类 将 为 一 批 数据 
(X_batch，y_batch) 引入 一 个 0ptimizer 类 、 一 个 PyTorchModel 类 和 一 个 Loss 类 (nn.MSELoss 
类 或 nn.CrossEntropyLoss 类 )。 然 后 ， 把 这 些 对 象 分 别 设置 为 self.optim、self.model 和 
selLf.Loss。 以 下 代码 将 训练 模型 : 





# 将 梯度 设置 为 0 


seLf .optim.zero_grad() 


# 将 X_batch 输 入 模型 
output = self.model(X_batch) 


# 计算 损失 值 
Loss = self.loss(output, y_batch) 











# 对 损失 执行 后 向 调用 ， 开 始 反 向 传播 
loss.backward() 





# 与 以 前 一 样 ， 调 用 self .optim.step() 来 更 新 参数 
self .optim.step() 





以 上 是 最 重要 的 代码 行 。 下 面 是 PyTorchTrainer 类 的 其 余 代 码 ， 其 中 大 部 分 与 前 面 章 市 中 
的 Trainer 类 代码 类 似 。 











class PyTorchTrainer(object): 
def _ init__(self, 

model: PyTorchModel, 
optim: Optimizer, 
criterion: _Loss): 

self.model = model 

self.optim = optim 

self.loss = criterion 

self. check_optim net _aligned() 


def check_optim net_aligned(self): 
assert self.optim.param groups[0]['params']\ 
== list(self.model.parameters()) 


def generate batches(self, 
X: Tensor, 
y: Tensor, 
size: int = 32) -> Tuple[Tensor]: 
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N = 


for 


X.shape[0] 


ii in range(0, N, size): 
X_batch，y_batch = Xx[ii:ii+rsize], y[ii:iitrsize] 


yield X_batch，y_batch 


def fit(self, X_train: Tensor, y_train: Tensor, 


for 











X_test: Tensor, y_test: Tensor, 
epochs: int=100, 

eval_every: int=10, 

batch_size: int=32): 


e in range(epochs): 
X_train, y_train = permute data(X_train, y_train) 


batch_generator = self. generate batches(X_train, y_train, 
batch_size) 


for ii, (X_batch, y_batch) tin enumerate(batch generator): 


self.optim.zero_grad() 

output = self.model(X_batch) 

loss = self.loss(output, y_batch) 
Loss.backward() 

seLf .optim.step() 


output = self.model(X_test) 
Loss = self.loss(output, y_test) 
print(e, loss) 


由 于 要 向 Trainer 类 传递 Model 类 、optimizer 类 和 Loss 类 ， 因 此 需要 检 
栓 Optimizer 类 所 引用 的 参数 是 否 与 模型 的 参数 相同 。_check_optim_net_ 
aligned 执行 此 操作 。 








现在 训练 模型 非常 简单 


net = HousePricesModel() 


optimizer = 
criterion = 


optim.SGD(net.parameters(), lr=0.001) 
nn.MSELoss() 


trainer = PyTorchTrainer(net, optimizer, criterion) 


trainer.fit(X_train, y_train, X_test, y_test, 


相 比 第 1 ~ 3 章 所 构建 的 框架 ， 在 训练 模型 时 ， 上 面 的 代码 与 基于 该 框架 的 代码 几乎 相 
同 。 无 论 你 是 在 底层 使 用 PyTorch、TensorFlow 还 是 Theano， 训 练 深度 学 习 模 型 的 要 素 都 


是 一 样 的 ! 





epochs=10， 
eval_every=1) 


接 下 来 将 展示 如 何 实现 第 4 章 介绍 的 优化 技术 ， 从 而 探索 PyTorch 的 更 多 特性 。 
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7.2.6 ”PyTorch 优 化 学 习 技 术 
第 4 章 介绍 了 以 下 4 种 优化 技术 。 
。 dropout 


。 权重 初始 化 
学 习 率 豪 减 








这 些 优 化 技术 在 PyTorch 中 都 很 容易 实现 。 例 如 ， 要 在 优化 器 中 包含 动量 ， 只 需要 在 SGD 

中 包含 momentum 关键 字 ， 这 样 优化 器 就 变 成 下 面 这 种 形式 : 
optim.SGD(modeL.parameters()，Lr=0.01，momentum=0.9) 

dropout 实现 起 来 也 同样 容易 。 就 像 PyTorch 中 的 内 置 模 块 nn.Linear(n_in，n_out) 可 以 计 

算 Dense 层 的 运算 一 样 ，nn.Dropout(dropout_prob) 模块 实现 了 Dropout 运算 ， 在 默认 情况 

下 ， 传 入 的 概率 是 丢弃 给 定神 经 元 的 概率 ， 而 不 是 像 之 前 实现 的 保持 神经 元 的 概率 。 

无 须 担心 权重 初始 化 :对 于 大 多 数 涉 及 参数 的 PyTorch 运算 (包括 nn.Linear)， 它 们 的 权 

重 会 根据 层 的 大 小 自动 缩放 。 

另外 ，PyTorch 具有 tr_scheduler 类 ， 该 类 可 以 在 多 轮训 练 后 降低 学 习 率 ， 你 所 需要 的 关 


键 导 入 项 就 来 自 torch.optim import Lr_scheduter 。 对 于 这 些 从 基本 原理 开始 介绍 的 技术 ， 
现在 可 以 轻松 地 将 它们 应 用 到 接 下 来 的 深度 学 习 项 目 中 | 

















7.3 PyTorch 中 的 CNN 


第 5 章 系 统 地 介绍 了 CNN 的 工作 原理 ， 重 点 讨论 了 多 通道 卷 积 运算 。 可 以 看 到 ， 该 运算 
将 输入 图 像 的 像素 转换 为 构成 特征 图 的 神经 元 层 ， 其 中 每 个 神经 元 表示 在 图 像 中 的 该 位 置 
是 否 存在 给 定 的 视觉 特征 (由 卷 积 过 滤器 定义 )。 多 通道 卷 积 运 算 的 输入 (两 个 ) 和 输出 
有 具有 以 下 形状 。 


























。 输入 数据 形状 为 [batch_size, in_channels, image_height, image_width]。 
。 输入 参数 形状 为 [in_channeLs， out_channels, filter_size, filter_size]。 
。 输出 形状 为 [batch_size, out_channels, image_height, image_width]。 








按照 这 种 表示 法 ，PyTorch 中 的 多 通道 卷 积 运算 可 以 像 下 面 这 样 表示 : 








nn.Conv2d(in_channels, out_channels, filter_size) 





注 3: 本 书 的 随 书 文件 提供 了 一 个 实现 指数 学 习 率 衰减 的 代码 示例 ， 它 是 PyTorchTrainer 的 一 部 分 。 另 外 ， 
PyTorch 网 站 提供 了 关于 使 用 ExponentiaLLR 类 的 文档 。 

















A 
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使 用 这 个 定义 ， 围 绕 该 运算 包装 ConvLayer 类 就 很 简单 。 


class ConvLayer(PyTorchLayer): 


def 


def 





__init__(self, 
in_channels: int， 
out_channels: int, 
filter_size: int, 
activation: nn.Module = None, 
flatten: bool = False, 
dropout: float = 1.0) -> None: 
super().__init__() 


# 该 层 的 主要 运算 
self.conv = nn.Conv2d(in_channels, out_channels, filter_size, 
padding=filter_size // 2) 


# 与 之 前 相同 的 “激活 ”运算 和 flatten 运 算 
self.activation = activation 
self.flatten = flatten 
if dropout < 1.0: 
self.dropout = nn.Dropout(1 - dropout) 


forward(self, x: Tensor) -> Tensor: 


# 始终 应 用 卷 积 运算 


x = self.conv(x) 


# 选择 性 地 应 用 卷 积 运算 
if self.activation: 
x = self.activation(x) 
if self.flatten: 
x = x.view(x.shape[0], x.shape[1] * x.shape[2] * x.shape[3]) 
if hasattr(self, "dropout"): 
x = self.dropout(x) 


return x 





在 第 5 章 中 ， 为 了 让 输出 图 像 的 大 小 与 输入 图 像 的 大 小 相同 ， 我 们 根据 过 滤器 
的 大 小 自动 填充 输出 。 基 于 同样 的 目标 ， 在 PyTorch 中 的 做 法 则 不 同 ， 我 们 在 
nn.Conv2d 运算 中 添加 了 一 个 参数 ， 设 置 padding = filter_size // 2。 



































这 样 一 来 ， 只 需要 定义 PyTorchModel 即 可 开始 训练 。 其 中 ，__init ”方法 包含 该 模型 的 相 
关 运 算 ，forward 方 法 定义 了 运算 的 序列 。 接 下 来 是 一 个 简单 的 架构 ， 可 以 应 用 于 第 4 章 
和 第 5 章 介绍 的 MNIST 数据 集 ， 该 架构 包括 以 下 两 个 方面 。 


两 个 卷 积 


层 : 一 个 可 以 将 输入 从 1 个 通道 转换 为 16 个 通道 ， 另 一 个 可 以 将 这 16 个 通道 


转换 为 8 个 通道 〈 每 个 通道 仍 包 en 
两 个 全 连接 层 。 











在 卷 积 架构 中 ， 对 于 几 个 卷 积 层 后 面 紧 跟着 少量 全 连接 层 ， 这 种 模式 很 常见 。 这 里 只 使 用 
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两 个 全 连接 层 : 


class MNIST_ConvNet(PyTorchModel): 
def _ init__(self): 

super().__init__() 

seLf .conv1 = ConvLayer(1, 16, 5, activation=nn.Tanh(), 
dropout=0.8) 

seLf .conv2 = ConvLayer(16, 8, 5, activation=nn.Tanh(), flatten=True, 
dropout=0.8) 

seLf .dense1 = DenseLayer(28 * 28 * 8, 32, activation=nn.Tanh(), 

dropout=0.8) 
self.dense2 = DenseLayer(32, 10) 


def forward(self, x: Tensor) -> Tensor: 
assert_ dim(x, 4) 


x = SeLf.conv1(x) 
x = self.conv2(x) 
x = self.dense1(x) 
x = self.dense2(x) 
return x 


然后 可 以 像 训 练 HousePricesModel 一 样 训练 这 个 模型 : 





model = MNIST_ConvNet() 
criterion = nn.CrossEntropyLoss() 
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) 


trainer = PyTorchTrainer(model, optimizer, criterion) 


trainer.fit(X_train, y_train, 
X_test, y_test, 
epochs=5， 
eval_every=1) 


注意 ， 对 nn.CrossEntropyLoss 类 来 说 ， 还 有 一 点 很 重要 。 回 想 一 下 ， 在 前 几 章 的 自 定义 
框架 中 ，Loss 类 期 望 输入 的 形状 与 目标 形状 相同 。 为 此 ， 我 们 对 MNIST 数据 中 10 个 目标 





值 进行 了 一 次 独 热 编码 ， 这 样 对 于 每 批 数据 ， 目 标的 形状 均 为 [batch_sitze，10] 。 


如 果 使 用 PyTorch 的 nn.CrossEntropyLoss 类 (与 之 前 的 SoftmaxCrossEntropyLoss 类 完全 
一 样 )， 那 么 就 不 必 采 取 这 种 做 法 。 这 个 损失 函数 需要 以 下 两 个 Tensor。 





。 大 小 为 [batch_size，num_classes] 的 预测 Tensor ， 就 像 SoftmaxCrossEntropyLoss 类 之 
前 所 做 的 那样 。 
。 大 小 为 [batch_size] 的 目标 Tensor， 包 仿 num_classes 个 值 。 


在 前 面 的 示例 中 ，y_train 仅 是 大 小 为 [606909] 的 数组 (MNIST 训练 集中 的 观测 值 的 数 


量 ) 


， 而 y_test 的 大 小 仅 为 [19069] (测试 集中 的 观测 值 的 数量 )。 
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第 7 章 


就 像 使 用 X_train、y_train、X_test 和 y_test 一 样 ， 在 内 存 中 加 载 整个 训练 集 和 测试 集 来 
训练 模型 ， 这 种 做 法 的 内 存 使 用 率 明 显 很 低 。 既 然 要 处 理 更 大 的 数据 集 ， 我 们 应 该 讨论 另 
一 个 最 佳 实践 。PyTorch 有 一 个 解决 方法 ， 即 DataLoader 类 。 























DataLoader 类 和 transforms 模 块 


回想 一 下 ， 在 第 4 章 对 MNIST 的 建 模 中 ， 我 们 对 MNIST 中 的 数据 应 用 了 一 个 简单 的 预 处 
理 步骤 ， 即 减 去 总 体 均 值 (平均 值 ) 并 除 以 标准 偏差 ， 从 而 对 数据 集 进 行 大 致 的 归 一 化 : 





Xx_train, X_test 
X_train, X_test 


X_train - X_train.mean(), X_test - X_train.mean() 
Xx_train / xX_train.std(), X_test / Xx_train.std() 


尽管 如 此 ， 这 仍然 需要 首先 将 这 两 个 数组 完全 读 入 内 存 。 在 神经 网 络 中 ， 随 着 批量 数据 的 
输入 ， 动 态 执行 此 预 处 理 步 骤 将 更 加 高 效 。PyTorch 的 一 些 内 置 功能 可 以 执行 此 操作 ， 这 
些 功能 通常 应 用 于 图 像 数据 ， 比 如 通过 transforms 模块 执行 转换 ， 以 及 通过 torch.utils. 
data 引入 DataLoader 类 : 























from torchvision.datasets import MNIST 
import torchvision.transforms as transforms 
from torch.utils.data import DataLoader 


之 前 ， 可 以 通过 以 下 方式 将 整个 训练 集 读 入 X_train: 


mnist_trainset = MNIST(root="../data/", train=True) 
X_train = mnist trainset.train_ data 


然后 ， 对 X_train 执行 转换 ， 将 其 转换 为 可 用 于 建 模 的 形式 。 
PyTorch 让 我 们 可 以 在 读 入 每 批 数据 时 便捷 地 执行 许多 转换 。 这 样 既 可 以 避免 将 整个 数据 
集 读 取 到 内 存 中 ， 又 可 以 应 用 PyTorch 的 转换 功能 。 


首先 ， 定 义 一 个 转换 列表 ， 对 读 取 的 每 一 批 数 据 执行 转换 操作 。 例 如 ， 以 下 转换 将 每 幅 
MNIST 图 像 都 转换 为 一 个 Tensor ,然后 “ 归 一 化 ”数据 集 ( 减 去 总 体 均值 , 然后 除 以 标准 
偏差 )， 总 体 均值 和 标准 偏差 分 别 是 9.1395 和 0.3081。 











img_transforms = transforms.Compose([ 
transforms.ToTensor(), 
transforms.Normalize((0.1305,), (0.3081,)) 
]) 








注 4: 在 默认 情况 下 ， 大 多 数 PyTorch 数据 集 是 “PIL 图 像 ”。 因 此 ，transforms.ToTensor() 通常 是 列表 中 
的 第 一 个 转换 。 
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(0.4，0.2，0.5))， 它 将 告诉 DataLoader 类 以 


。 使 用 平均 值 0.1 和 标准 偏差 0.4 归 一 化 第 1 个 通 
。 使 用 平均 值 0.3 和 标准 偏差 0.2 归 一 化 第 2 个 通 
。 使 用 平均 值 0.6 和 标准 偏差 0.5 归 一 化 第 3 个 通 




















Normalize 实际 上 从 输入 图 像 的 每 个 通道 中 减 去 平均 值 和 标准 偏差 。 因 此 ， 在 
处 理 具 有 3 个 输入 通道 的 彩色 图 像 时 ， 通 常会 对 两 个 元 组 (每 个 具有 3 个 数字 ) 
执行 Normalize 转换 。 例 如 ,执行 transforms.NormaLize((0.1，0.3，0.6)， 


























下 信息 。 


吝 记 


o 
o 
o 


[Ee 





其 次 ,一 旦 应 用 了 这 些 转 换 ， 就 在 批量 读 取 数 据 时 将 它们 应 用 于 dataset: 


dataset = MNIST("../mnist_ data/", transform=img_transforms) 


接着 ， 定义 DataLoader 类 来 接收 此 数据 集 ， 并 定义 用 于 连续 生成 批量 数据 的 规则 : 





dataloader = DataLoader(dataset, batch_size=60, shuffle=True) 


最 后 ， 修 改 Trainer 类 ， 从 而 使 用 dataloader 生成 用 于 i 


l 练 神经 网 络 的 批量 数据 ， 而 不 是 


像 以 前 一 样 将 整个 数据 集 加 载 到 内 存 中 并 使 用 batch_generator 函数 手动 生成 它们 。 在 本 
书 的 随 书 文件 中 ， 我 展示 了 一 个 使 用 DataLoader 类 训练 CNN 的 示例 。Trainer 中 的 主要 








变化 是 改变 了 下 面 这 一 行 代码 : 


for X_batch，y_batch in enumerate(batch_generator ) : 





下 


这 


掉 是 修改 后 的 代码 











for X_batch，y_batch in enumerate(train dataloader): 














此 外 ， 现 在 不 再 将 整个 训练 集 输入 fit 函数 ， 而 是 输入 到 DataLoader 类 中 : 





trainer.fit(train dataloader = train_loader, 
test_dataloader = test_loader, 
epochs=1， 
eval_every=1) 


正如 刚才 所 做 的 那样 ， 使 用 这 种 架构 并 调用 fit 可 以 使 MNIST 在 一 轮训 练 后 达到 约 97% 





的 准确 度 。 但 是 ， 比 准确 性 更 重要 的 是 ， 你 已 经 了 解 了 女 


0 何在 高 性 能 框架 中 实现 我 们 从 基 








本 原理 中 得 出 的 概念 。 了 解 了 底层 概念 和 框架 之 后 ， 你 可 以 去 修改 本 书 中 的 代码 ， 并 尝试 











其 他 卷 积 架构 和 数据 集 。 








RNN 变 体 ， 并 展示 如 何在 PyTorch 中 实现 它 。 








如 前 所 述 ，CNN 是 一 种 高 级 架构 。 下 面 转向 另 一 种 高 级 架构 LSTM， 即 本 书 中 最 高 级 的 





7.4 PyTorch 的 LSTM 
第 6 章 介绍 了 如 何 从 零 开始 编写 LSTM。 我 们 对 LSTMLayer 类 进行 了 编码 ， 从 而 接收 一 





个 


大 小 为 [batch_size， sequence_Length， feature_size] 的 输入 ndarray， 并 输出 一 个 大 小 为 
[batch_size， sequence_Length， feature_size] 的 ndarray。 此 外 ， 每 层 都 接 1 eg 





态 和 一 个 单元 状态 ， 每 个 状态 的 形状 都 初始 化 为 [1，hidden_size]。 在 传 和 一 批 数据 时 ， 
状 会 扩展 六 [batch_size，hidden_size];， 在 迭代 完成 之 后 ， 形 状 变 回 [1， et 








因此 ，LSTMLayer 类 的 _init__ 方法 定义 如 下 : 


class LSTMLayer(PyTorchLayer): 
def _ init__(self, 

sequence_length: int， 

input_size: int, 

hidden size: int， 

output_size: int) -> None: 
super().__init__() 
self.hidden size = hidden_ size 
self.h init = torch.zeros((1, hidden_ size)) 
self.c init = torch.zeros((1, hidden_ size)) 
self.lstm = nn.LSTM(input_size, hidden size, batch first=True) 
self.fc = DenseLayer(hidden size, output_ size) 


与 卷 积 层 一 样 ，PyTorch 中 有 一 个 名 为 nn.lstn 的 运算 ， 可 用 于 实现 LSTM。 注 意 , 在 自 


定义 LSTMLayer 类 中 ，self.fc 属性 存储 了 DenseLayer 类 。 你 可 能 还 记得 ， 在 第 6 章 











章 中 ， 


LSTM 单元 的 最 后 一 步 是 将 最 终 隐 藏 状态 输入 到 Dense 层 的 运算 中 (权重 乘法 和 添加 偏 
差 )， 从 而 为 每 个 运算 将 隐藏 状态 的 维度 转换 为 output_size。PyTorch 的 处 理 方式 有 所 不 
同 : nn.lstn 运算 仅 在 每 个 时 间 步 长 中 输出 隐藏 状态 。 因 此 ， 和 神经 网 络 层 一 样 ， 为 了 让 
LsTMLayer 类 输出 的 维度 与 其 输入 的 维度 不 同 ， 我 们 在 最 后 添加 一 个 Dense 层 ， 从 而 将 隐藏 



































状态 的 维度 转换 为 output_size。 


通过 这 种 修改 ，forward 方法 现在 变 得 简单 明了 ， 类 似 于 第 6 章 的 LSTMLayer 类 中 的 forward 





方法 : 
def forward(self, x: Tensor) -> Tensor: 
batch_size = x.shape[0] 


h_layer = self. transform hidden batch(self.h_init, 
batch_size, 
before_Layer=True) 

c_layer = self. transform hidden batch(self.c_ init, 
batch_size, 
before_Layer=True) 


x, (h_out, c_out) = self.lstm(x, (h_layer, c_layer)) 
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self.h init, self.c init = ( 


seLf. transform_hidden_batch(h_out， 
batch_size, 


before_layer=False).detach(), 
self._ transform_hidden_batch(c_out, 


batch_size, 
before_layer=False).detach() 
) 


x = self.fc(x) 


return x 


考虑 到 第 6 章 中 的 LSTM 实现 ， 这 里 的 关键 代码 行 看 起 来 应 该 很 熟悉 : 


x, (h_out, c_out) = self.lstm(x, (h_layer, c_layer)) 


除 此 之 外 ， 


还 利用 辅助 函数 self._transform_hidden_batch 对 self.lstn 前 后 的 隐藏 状态 
以 及 单元 状态 进行 了 重 塑 。 可 以 在 本 








的 随 书 文件 中 查看 完整 代码 。 


最 后 ， 将 模型 包装 起 来 很 容易 ， 如 下 所 示 。 


class NextCharacterModel(PyTorchModel): 
def _ init__(self, 


vocab_size: int, 
hidden_size: int = 256, 
sequence_length: int = 25): 
super().__init__() 
self.vocab_size = vocab_size 
seLf .sequence_Length = sequence_Length 








# 这 个 模型 只 有 一 层 ， 该 层 的 输出 大 小 与 输入 大 小 相同 

self.lstm = LSTMLayer(self.sequence_length, 
self.vocab_size, 
hidden_size, 
self.vocab_size) 


def forward(self, 





本 





inputs: Tensor): 
assert_dim(inputs, 3) # batch_size, sequence_length, vocab_size 


out = self.lstm(inputs) 

return out.permute(0, 2, 1) 

nn.CrossEntropyLoss 国 数 期 望 前 两 个 维度 是 batch_size 和 类 的 分 布 。 然 而 ， 
按照 实现 LSTM 的 方式 ， 我 们 将 类 的 分 布 作为 LSTMLayer 类 中 的 最 后 一 个 维 


度 (vocab_size)。 因 此 ， 为 了 将 最 终 的 模型 输出 传递 给 损失 ， 这 里 使 用 out 
permute(0,2,1) 将 包含 字母 分 布 的 维度 移 到 了 第 2 个 维度 。 




















的 随 书 文件 展示 了 如 何 编 写 从 PyTorchTrainer 类 继承 的 LSTMTrainer 类 ， 并 使 用 它 来 
训练 NextCharacterModet 生成 文本 。 与 第 6 章 一 档 








让 





， 这 里 同样 进行 文本 预 处 理 : 选择 文本 





大 
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二 
草 


序列 ， 对 字母 进行 独 热 编 码 ， 然 后 对 独 热 编码 的 字母 序列 进行 分 组 ， 从 而 形成 批 次 。 


以 上 总 结 了 如 何在 PyTorch 中 实现 用 于 监督 学 习 的 神经 网 络 架构 ， 包 括 全 连接 神经 网 络 、 
CNN 和 RNN。 最 后 ， 本 书 将 简要 介绍 如 何 将 神经 网 络 用 于 另 一 种 机 器 学 习 : 无 监督 学 习 


(unsupervised learning ) 。 


7.5 后 记 : 通过 自 编码 器 进行 无 监督 学 习 


本 书 始终 专注 于 如 何 使 用 深度 学 习 模 型 来 解决 涉及 监督 学 习 的 问题 。 当 然 ， 机 器 学 习 还 包 
括 无 监督 学 习 ， 通 常 描述 为 “在 没有 标签 的 数据 中 寻找 结构 ”"。 但 是 ， 我 喜欢 将 无 监督 学 
习 摘 述 为 发 现 尚 未 测量 的 数据 特征 之 间 的 关系 ， 而 监督 学 习 则 需要 发 现 已 测量 数据 特征 之 
间 的 关系 。 
假设 你 有 一 个 没有 标签 的 图 像 数 据 集 。 你 对 这 些 图 像 不 太 了 解 ， 比 如 说 ， 你 不 知道 其 中 有 
几 个 数字 ， 并 且 你 想 知 道 以 下 问题 的 答案 。 

有 多 少 个 数字 ? 

哪些 数字 看 起 来 彼此 相似 ? 
。 是 否 存在 与 其 他 图 像 明 显 不 同 的 “异常 ”图 像 ? 

































































要 理解 如 何 利用 次 度 学 习 来 解决 这 些 问题 ， 必 须 从 概念 角度 思考 深度 学 习 模 型 的 工作 机 制 。 


7.5.1 表征 学 习 

深度 学 习 模 型 可 以 通过 学 习 做 出 准确 的 预测 。 模 型 通过 将 接收 到 的 输入 转换 成 表征 来 实现 
这 一 点 ， 这 种 表征 更 为 抽象 ， 也 更 易于 调整 ， 从 而 可 以 直接 对 相关 问题 进行 预测 。 特 别 是 
在 神经 网 络 的 最 后 一 层 ， 即 紧 靠 预测 本 身 的 那 一 层 *， 神 经 网 络 试图 基于 输入 数据 创建 对 预 
测 任 务 尽 可 能 有 用 的 表征 ， 如 图 7-1 所 示 。 

















预测 
神经 网 络 输入 的 
最 终 表征 











图 7-1: 神经 网 络 的 最 后 一 层 (预测 之 前 的 那 一 层 ) ， 代 表 了 神经 网 络 对 输入 的 表征 ， 对 预测 任务 最 
有 帮助 





注 5: 对 于 回归 问题 ， 只 有 一 个 神经 元 ， 而 对 于 分 类 问题 ， 有 num_classes 个 神经 元 。 
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一 旦 训练 完成 ， 模 型 不 仅 可 以 对 新 的 数据 点 进行 预测 ， 还 可 以 生成 这 些 数据 点 的 表征 。 除 
了 预测 ， 还 可 以 将 它们 用 于 聚 类 、 相 似 性 分 析 或 异常 点 检测 。 


7.5.2 ”应 对 无 标签 场景 的 方法 

整个 方法 的 局 限 性 在 于 ， 需 要 标签 来 训练 模型 ， 从 而 生成 表征 。 问 题 是 ， 如 何在 没有 任何 
标签 的 情况 下 训练 模型 ， 从 而 生成 “有 用 ”的 表征 ?如 果 没 有 标签 ， 则 需要 使 用 唯一 拥有 
的 东西 ， 即 训练 数据 本 身 。 这 是 一 种 叫 作 自 编码 器 (autoencoder) 的 神经 网 络 架 构 的 理念 ， 
该 架构 涉及 训练 神经 网 络 来 重建 (reconstruct) 训练 数据 ， 从 而 人 迫使 神经 网 络 学 习 对 重建 
最 有 帮助 的 每 个 数据 点 的 表征 。 














示意 图 
图 7-2 描绘 了 自 编 码 右 的 总 体 情况 。 


1. 一 组 层 将 数据 转换 为 数据 的 压缩 表征 。 
2. 男 一 组 层 将 此 表征 转换 为 大 小 和 形状 与 原始 数据 相同 的 输出 。 











Su 
误 


隐藏 表征 








编码 器 解码 器 











图 7-2: 自 编码 器 具有 一 组 将 输入 映射 到 低 维 表征 的 层 (可 以 称 为 “编码 器 ”)， 以 及 另 一 组 将 低 维 
表征 映射 回 输入 的 层 (可 以 称 为 “解码 器 ”)。 这 种 架构 迫使 神经 网 络 学 习 对 重建 输入 最 有 用 的 低 维 
表征 


实现 这 种 架构 需要 用 到 PyTorch 的 一 些 特性 ， 目 前 本 书 暂 未 涉及 这 些 特性 。 





7.5.3 在 PyTorch 中 实现 自 编码 器 

现在 展示 一 个 简单 的 自 编码 器 ， 该 编码 器 接收 一 幅 输入 图 像 ， 将 其 输入 到 两 个 卷 积 层 和 一 
个 Dense 层 中 来 生成 表征 ， 然 后 再 将 这 个 表征 传递 回 Dense 层 和 卷 积 层 来 生成 一 个 与 输入 
大 小 相同 的 输出 。 我 们 将 以 此 为 例 说 明 在 PyTorch 中 实现 高 级 架构 时 所 采用 的 两 种 常见 做 
法 。 首 先 ， 可 以 在 一 个 PyTorchModel 类 中 包含 多 个 PyTorchModel 类 作为 自身 的 属性 ， 就 像 
之 前 将 PyTorchLayer 类 定义 为 此 类 模型 的 属性 一 样 。 以 下 示例 将 实现 自 编码 器 ， 其 中 有 两 
个 PyTorchModel 类 作为 属性 ， 分 别 是 Encoder 类 和 Decoder 类 。 一 旦 训练 了 模型 ， 就 可 以 
将 经 过 训练 的 Encoder 类 作为 自己 的 模型 来 生成 表征 。 
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下 面 是 Encoder 类 的 定义 : 











class Encoder(PyTorchModel): 
def _ init__(self, 
hidden_dim: int = 28): 
super(Encoder, self).__init__() 
seLf .conv1 = ConvLayer(1, 14, activation=nn.Tanh()) 
seLf .conv2 = ConvLayer(14, 7, activation=nn.Tanh(), flatten=True) 


seLf .dense1 = DenseLayer(7 * 28 * 28, hidden dim, activation=nn.Tanh()) 


def forward(self, x: Tensor) -> Tensor: 
assert_dim(x, 4) 


x = self.convi(x) 
x = self.conv2(x) 
x = seLf.dense1(x) 
return x 





下 面 是 Decoder 类 的 定义 。 











class Decoder(PyTorchModel): 
def _ init__(self, 
hidden_dim: int = 28): 
super(Decoder, self).__init__() 
self.densel = DenseLayer(hidden dim, 7 * 28 * 28, activation=nn.Tanh()) 


seLf .conv1 = ConvLayer(7, 14, activation=nn.Tanh()) 
self.conv2 = ConvLayer(14, 1, activation=nn.Tanh()) 


def forward(self, x: Tensor) -> Tensor: 
assert_ dim(x, 2) 


x = seLf.dense1(x) 

x = x.view(-1, 7, 28, 28) 
x = self.convi(x) 

x = self.conv2(x) 

return x 





如 果 所 使 用 的 步 幅 大 于 1， 就 不 能 像 在 这 里 一 样 简单 地 使 用 常规 卷 积 将 编 
码 转换 为 输出 ， 而 是 必须 使 用 转 置 卷 积 (transposed convolution) ， 其 中 该 
运算 输出 的 图 像 大 小 将 大 于 输入 的 图 像 大 小 。 要 了 解 更 多 相关 信息 ， 参 见 
PyTorch 文档 中 的 nn.ConvTranspose2d 运算 。 






































然后 ，Autoencoder 类 本 身 可 以 将 这 些 包装 起 来 ， 其 定义 如 下 : 


class Autoencoder(PyTorchModel): 
def _ init__(self, 
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hidden_dim: int = 28): 
super(Autoencoder, self)._ init__() 


self.encoder = Encoder(hidden_dinm) 
self.decoder = Decoder(hidden_dim) 


def forward(self, x: Tensor) -> Tensor: 
assert_dim(x, 4) 


encoding = self.encoder(x) 
x = self.decoder(encoding) 


return x, encoding 


Autoencoder 类 中 的 forward 方法 展示 了 PyTorch 的 第 二 种 常见 做 法 : 由 于 最 终 希 望 看 到 模 
型 生成 的 隐藏 表征 ， 因 此 forward 方法 返回 两 个 元 素 ， 即 encoding 以 及 用 于 训练 神经 网 络 
的 输出 x。 








当然 ， 必 须 修 改 Trainer 类 来 适应 这 种 情况 。 上 有 具体 地 说 ， 当 前 编写 的 PyTorchModet 类 
从 其 forward 方法 仅 输出 一 个 Tensor。 事 实证 明 ， 当 修改 Trainer 类 之 后 ， 它 默认 会 返 
回 一 个 Tensor 元 组 〈 即 使 该 元 组 的 长 度 为 1)。 这 非常 有 用 ， 我 们 能 够 据 此 轻松 编写 像 
Autoencoder 类 这 样 的 模型 ， 并 且 整 个 过 程 易于 实现 。 只 需 完 成 3 件 易 事 即 可 。 首 先 ， 创 
建 PyTorchModel 基 类 中 forward 方法 的 签名 : 




















def forward(self, x: Tensor) -> Tuple[Tensor]: 


并 且 在 从 PyTorchModel 基 类 继承 的 所 有 模型 的 forward 方法 末尾 ， 写 下 return x，encoding， 
而 不 是 像 以 前 那样 执行 return x。 





然后 ， 修 改 Trainer 类 ， 使 其 始终 将 模型 返回 的 第 一 个 元 素 作为 输出 : 
output = seLf.modeL(X_batch)[0] 
output = self.model(X_test)[0] 
Autoencoder 模型 的 另 一 个 显著 特征 ， 就 是 在 最 后 一 层 应 用 了 Tanh 激活 函数 ， 这 意味 着 模 


型 的 输出 将 介 于 -1 和 1 之 间 。 对 于 任何 模型 ， 其 输出 都 应 该 和 所 比较 的 目标 大 小 相同 ， 
这 里 ， 目 标 就 是 输入 本 身 。 因 此 ， 应 该 将 输入 的 范围 缔 放 到 -1 ~ 1， 如 以 下 代码 所 示 : 














X_train auto = (X_train - X_tratn.min()) 

/ (X_train.max() - X_train.min()) * 2 - 1 
X_test auto = (X_test - X_ train.min()) 

/ (X_train.max() - X_train.min()) * 2 - 1 


最 后 ， 可 以 使 用 训练 代码 来 训练 模型 ， 该 代码 现在 看 起 来 应 该 很 熟悉 (这 里 随机 使 用 28 
作为 编码 输出 的 维 数 ) : 
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model = Autoencoder(hidden_dim=28) 
criterion = nn.MSELoss() 
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) 


trainer = PyTorchTrainer(model, optimizer, criterion) 


trainer.fit(X_train_auto, X_train_auto, 
X_test_auto，X_test_auto， 
epochs=1， 
batch_size=60) 


一 旦 运行 此 代码 并 训练 了 模型 ， 就 可 以 将 X_test_auto 输入 到 模型 中 ， 从 而 查看 重建 的 图 
像 和 图 像 表 征 ， 这 是 因为 定义 的 forward 方法 会 返回 两 个 量 : 

















reconstructed_images, image_representations = model(X_test_auto) 


每 个 reconstructed_images 元 素 都 是 一 个 形状 为 [1，28，28] 的 Tensor ， 代 表 神 经 网 络 在 
将 原始 图 像 输 入 到 自 编码 器 架构 后 ， 也 就 是 强制 将 图 像 穿 过 较 低 维度 的 层 ， 对 其 进行 重建 
的 最 佳 尝试 效果 。 图 7-3 显示 了 随机 选择 的 重建 图 像 以 及 原始 图 像 。 












































从 自 编码 器 
原始 图 像 重建 的 图 像 

















图 7-3: 来 自 MNIST 测试 集 的 图 像 ， 以 及 输入 到 自 编码 器 后 的 重建 图 像 








从 视觉 上 看 ， 这 两 幅 图 像 看 起 来 很 相似 ， 这 告诉 我 们 神经 网 络 似乎 获取 了 原始 图 像 (784 
像素 )， 并 将 其 映射 到 较 低 维度 的 空间 (28 维 ) ， 造 成 关于 原始 图 像 的 大 部 分 信息 编码 在 这 
个 长 度 为 28 的 向 量 中 。 在 没有 看 到 标签 的 情况 下 ， 如 何 通过 检查 整个 数据 集 ， 来 检查 神 
经 网 络 是 否 学 会 了 图 像 数 据 结 构 呢 ? 这 里 的 “数据 结构 ”意味 着 底层 数据 实际 上 是 10 幅 
手写 数字 的 图 像 。 在 理想 情况 下 ， 新 的 28 维 空间 中 接近 给 定 图 像 的 图 像 应 该 为 同一 数字 ， 
或 者 至 少 在 视觉 上 非常 相似 ， 这 是 因为 视觉 相似 性 是 人 类 区 分 不 同 图 像 的 方式 。 可 以 通过 
降 维 技术 来 检验 这 种 情况 , 即 t-SNE*。t-SNE 的 降 维 方式 类 似 于 训练 神经 网 络 的 方式 : 它 从 
初始 的 低 维 表征 开始 ， 然 后 对 其 进行 更 新 ， 这 样 随 着 时 间 的 推移 ， 它 利用 高 维 空间 中 “ 相 
互 靠近 ”的 点 会 在 低 维 空间 中 “相互 靠近 ”这 一 性 质 〈 反 之 亦 然 ) 来 逼近 一 个 解 。 




































































注 6: 全 称 为 t-Distributed Stochastic Neighbor Embedding，t 分 布 随机 邻 域 葵 入 。Laurens van der Maaten 在 
就 读 研 究 生 期 间 发 明了 该 技术 ， 当 时 他 的 导师 是 Geoffrey Hinton (神经 网 络 的 “ 莫 基 人 ”之 一 )。 

注 7: 参见 Laurens van der Maaten 和 Geoffrey Hinton 在 2008 年 共同 发 表 的 论文 “Visualizing Data using 
t-SNE 。 
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签 〈 自 编码 器 看 不 到 ) 为 它们 着 色 。 


/由 





1. 将 10 000 幅 图 像 输入 t-SNE， 并 将 维度 降 为 2。 
2. 可 视 化 所 得 的 二 维 空 间 ， 并 根据 数据 点 的 实际 


我 们 将 尝试 下 面 两 种 方法 。 
结果 如 图 7-4 所 示 。 








iues from hidden layer 


reducing the 28 val 


10000 observations from MNIST test set. colored by their at 
encoder - trained without labels - down to two dimensior 


Locations are the result of 
autot 











这 一 点 表明 ， 在 没有 看 到 任何 


行 t-SNE 的 结果 
的 情况 下 ， 通 过 训练 自 编码 器 架构 学 习 仅 从 低 维 表征 来 重 构 原 始 图 像 ， 确 实 能 让 它 发 
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运 
ituring.cn/book/2759。 一 一 编者 注 
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似乎 每 个 数字 的 图 像 在 很 大 程度 上 都 归 为 一 个 独立 的 类 别 。 


7-4: 针对 自 编码 器 的 28 维 学 习 空 间 
注 8: 可 以 登录 图 灵 社 区 查看 彩 图 : 





现 这 些 图 像 的 底层 结构 "。10 个 数字 不 仅 被 表示 为 不 同 的 类 别 , 在 视觉 上 相似 的 数字 也 更 靠 
近 : 在 顶部 和 靠 右 的 位 置 ， 有 数字 3、4 和 8;， 在 底部 ， 可 以 看 到 5 和 9 紧密 地 聚 在 一 起 ， 
7 也 离 得 不 远 。 差 别 最 大 的 数字 (0、1 和 6) 与 其 余数 字 相 距 最 远 。 


7.5.4 更 强大 的 无 监督 学 习 测试 及 解决 方案 

7.5.3 节 展 示 了 一 个 很 简单 的 例子 ， 用 于 测试 模型 是 否 已 经 学 习 了 输入 图 像 空 间 的 底层 结 
构 。 至 此 ， 基 于 视觉 上 相似 的 图 像 具 有 相似 表征 的 这 一 特性 ，CNN 可 以 学 习 数 字 图 像 的 表 
征 也 就 不 足 为 奇 了 。 一 个 更 强大 的 测试 将 能 够 检查 神经 网 络 是 否 发 现 了 “平滑 ”的 底层 空 
间 : 在 该 空间 中 ， 除 了 通过 编码 器 网 络 输入 的 真实 数字 生成 的 向 量 ， 所 有 长 度 为 28 的 向 
量 也 都 可 以 映射 到 逼真 的 数字 。 事 实证 明 ， 自 编码 器 无 法 实现 这 一 点 。 下 面 生成 5 个 长 度 
为 28 的 随机 向 量 并 将 其 输入 到 解码 器 网 络 中 ， 图 7-5 显示 了 执行 结果 ， 甚 中 Autoencoder 
类 的 属性 包含 一 个 Decoder 类 : 

















test_encodings = np.random.uniform(Low=-1.0，high=1.0，size=(5，28)) 
test_imgs = model.decoder(Tensor(test_encodings)) 


7-5: 将 5 个 随机 向 量 输 入 解码 器 的 结果 


可 以 看 到 ， 这 里 生成 的 图 像 看 起 来 不 像 数 字 。 因 此 ， 尽 管 自 编码 堪 可 以 用 合理 的 方式 将 数 
据 映射 到 低 维 空间 ， 但 似乎 无 法 学 习 前 面 提 到 的 “平滑 ”空间 。 























解决 该 问题 的 方法 是 ， 通 过 训练 神经 网 络 ， 让 甚 学 会 在 一 个 “ 平 请 ”的 底层 空间 中 表示 训 
练 集中 的 图 像 ， 这 是 GAN " 的 主要 成 就 之 一 。GAN 诞生 于 2014 年 ， 通 过 一 个 能 够 同时 训 
练 两 个 神经 网 络 的 训练 程序 ， 它 实现 了 让 神经 网 络 生成 逼真 的 图 像 ， 也 正 是 因为 这 一 点 而 
广为人知 。 在 2015 年 ，GAN 确实 取得 了 长 足 的 进步 ， 当 研究 人 员 在 两 个 神经 网 络 中 同时 
使 用 GAN 与 深层 卷 积 架 构 时 ， 不 仅 可 以 生成 看 起 来 逼真 的 卧室 彩色 图 像 (64 像素 x 64 
像素 )， 还 可 以 从 随机 生成 的 100 维 向 量 中 生成 这 些 图 像 的 大 量 样本 “。 这 表明 神经 网 络 确 






































注 9: 此 外 ， 我 们 无 须 过 多 尝试 即 可 做 到 这 一 点 : 这 里 的 架构 非常 简单 ， 并 且 由 于 只 训练 一 轮 ， 因 此 没有 使 
用 前 面 讨 论 的 训练 神经 网 络 的 技术 〈 例 如 学 习 率 衰减 )。 这 说 明 ， 使 用 类 似 自 编码 器 的 架构 来 学 习 不 
带 标签 的 数据 集结 构 ， 这 种 想法 很 好 ， 而 不 仅仅 是 “碰巧 奏效 "。 

注 10: generative adversarial network， 生 成 对 抗 网 络 。 

注 11: 参见 Alec Radford 等 人 所 发 表 的 有 关 DCGAN 的 论文 “Unsupervised Representation Learning with 
Deep Convolutional Generative Adversarial Networks”， 以 及 PyTorch 的 相关 文档 。 
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实 已 经 了 解 了 这 些 未 标记 图 像 的 底层 表征 。GAN 涉及 的 内 容 足以 另 写 一 本 书 ， 这 里 只 对 
它 进行 大 致 介绍 ， 并 不 包括 具体 实现 细 方 。 














7.6 ”水 车 


至 此 ， 你 已 经 深入 了 解 了 一 些 较为 流行 的 高 级 深度 学 习 架 构 的 实现 机 制 ， 以 及 如 何 基 于 较 
为 流行 的 高 性 能 深 度 学 习 框 架 来 实现 这 些 架 构 。 现 在 就 只 差 实践 了 ， 只 有 通过 实践 ,才能 
使 用 深度 学 习 模 型 解决 现实 世界 中 的 问题 。 幸 运 的 是 ， 你 可 以 采用 最 简单 的 做 法 ， 那 就 是 
阅读 其 他 人 的 代码 ， 快 速 掌握 细节 和 实现 技巧 ， 从 而 构建 能 够 处 理 某 些 问 题 的 模型 架构 。 
本 书 的 随 书 文件 列 出 了 一 些 后 续 步 又， 在 实践 过 程 中 可 以 参考 。 加 油 ! 

















为 了 完善 前 面 的 内 容 ， 本 附录 将 深入 探讨 一 些 技术 问题 ， 这 些 问题 较为 重要 ， 可 以 在 实践 
中 参考 。 
和 矩阵 链 式 法 则 
首先 来 看 一 下 第 1 章 中 的 链 式 法 则 表达 式 ， 其 中 用 Jy" 代 闲人 2(X) 有 以 下 原因 。 
注意 ,上 的 计算 公式 如 下 ; 
oCXW) + oCXW) + OX ) + oCXWs) + oCXW) + (XW,) 


其 中 ，o(XW,) 和 o(XW,) 的 计算 方法 展开 为 : 





G(XW)= ox XW +X XW tx Xi1) 





oO(XW,)= ox XW + Xiy XW + XX Ws) 














以 此 类 推 。 现 在 聚焦 其 中 一 个 表达 式 ， 如 果 对 XX 的 每 一 个 元 素 (L 计算 公式 中 的 6 个 组 成 
部 分 )， 比 如 co(XW,) ， 求 其 偏 导数 ， 会 发 生 什么 情况 ? 


从 GCC 及) 的 计算 公式 可 以 看 到 ， 通 过 简单 应 用 链 式 法 则 ， 很 容易 计算 x 的 偏 导 数 : 


O00 
BD Wl 
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在 XW 的 表达 式 中 ， 由 于 只 有 wi 与 相 乘 ， 因 此 相对 于 其 他 所 有 值 ， 偏 导数 都 是 0。 


这 样 一 来 ， 计 算 o(XW,) 相对 于 XX 的 所 有 元 素 的 偏 导数 ， 可 以 得 出 9CC 整体 的 表达 
式 ， 如 下 所 示 : 





00 00 00 
Br DW Br Ws De DW 
Oo(XW) 一 


oxX 


0 0 0 
0 0 0 


同 理 ， 可 以 计算 o(XW,) 相对 于 关 的 每 个 元 素 的 偏 导数 : 





00 00 00 
BW) X Wi2 BF) X W22 FW) X Ws 





现在 我 们 拥有 了 直接 计算 全 () 的 所 有 组 件 。 可 以 简单 地 计算 6 个 与 前 面 的 矩阵 形式 相同 
的 矩阵 ， 并 将 结果 相 加 。 

注意 ， 这 里 虽然 没有 涉及 高 等 数学 运算 ,但 过 程 还 是 容易 变 乱 。 这 个 表达 式 很 简单 ， 你 
以 跳 过 下 面 的 计算 过 程 ， 直 接 查 看 结论 。 但 是 ， 理 解 整个 计算 过 程 之 后 ， 你 会 对 结论 产生 
更 全 面 的 认识 ， 那 就 是 它 真 的 非常 简单 。 不 过 ， 这 不 就 是 实践 的 意义 吗 ? 











这 里 只 有 两 个 步 又。 首先 ， 明 确 写 出 (9) 是 上 述 6 个 矩阵 的 总 和 : 








OA Oo), 00(XW,) , G0 XW) , 00 XWs) , 00 XW) , 00XW,) _ 
OxX OX OX OX ox ox ox 


[06o (olen (ale 
Bn Wl Bn Wl Bx Wl 
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0 0 

0Oa 0Oa 

mr on wh Be a Wi 
0 0 
0 0 


O00 O00 
Br 0) xX Wi, Br Wa) X W22 


| 0 0 
0 0 
0 





0Oa 0Oa 
BA XWi A XW 


0 0 
0 0 


O00 O00 
Br xX Wi, 有 (jp XW,, 


O00 
(12) x Wi | 十 


0Oa 
RAY XX Wi 


O00 
Br Ws) X Ws 


现在 ， 我 们 将 该 总 和 合并 为 一 个 大 和 矩阵。 该 矩阵 不 会 立即 具有 任何 直观 的 形式 ， 但 实际 上 








是 对 前 面 总 和 











OA 
a 


O00 
Br 不 
0Oa 
Br Pm 过 


O00 
A CS Wit 


的 计算 结果 : 


O00 O00 
mr a Wi2 Bx W21 十 


O00 O00 
人 Xx Wi» 人 XW 让 








O00 O00 
人 jx Wi Bx W21 十 


0Oa 
二) Wy 


O00 
有 Co) XW» 


6 


O00 
Bu (XW )x Ww ta a) 32 


0Oa 0Oa 
Br x Wl by Wy 


O00 O00 
Br DX Wl hr en) Ws2 


然后 就 是 精彩 的 部 分 。 回 想 一 下 ， 第 1 章 提 到 了 下 面 这 个 公式 : 


可 以 看 到 ，W 





隐藏 在 前 面 的 怎 阵 中 ， 其 实 它 只 











是 被 转 置 了 。 再 回想 一 下 这 个 公式 : 
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| 0 
到 (人 二 


人 (=| Wy) CW) 
1 





和 Ci) TxW,) 
Ou 
事实 证 明 ， 原 来 的 矩阵 可 以 用 下 面 这 种 形式 表示 


| oo 00 
Br EF) Br 2) 
Wi Wl! Wl 


a 
~—(X)= Br EW) Br (人 2) | 


Wa Wa Wa 





Oo O00 
me Br 





注意 ， 我 们 正在 试图 替换 下 面 这 个 等 式 中 的 问号 : 











OA OA 
—(X)=—(S)x? 
Bx ) Ba 


很 明显 ， 问 号 就 是 丈 。 


还 要 注意 ， 这 与 之 前 看 到 的 一 维 结果 相同 。 同 样 ， 这 既 解 秋 了 深度 学 习 起 作用 的 原因 ， 
又 让 我 们 能 够 清 申 地 实现 深度 学 习 模型 。 这 是 否 意味 着 我 们 可 以 替换 前 面 等 式 中 的 问号 ， 
将 该 等 式 星 解 成 了 (XV)=WW ? 不 ， 不 完全 是 。 但 是 ， 如 果 将 两 个 输入 (X 和 丈 ) 相 乘 
获得 结果 N， 并 将 这 些 输 入 传递 给 某 个 非 线 性 函数 o， 从 而 获取 输出 5S， 那么 可 以 这 样 
表达 : 



























































Or O00 
—(X,W)=——N)xW! 
汉人 ) Bu 


这 样 一 来 ， 我 们 便 可 以 使 用 矩阵 乘法 有 效 地 计算 并 表达 梯度 更 新 。 另 外 ， 通 过 类 似 的 计算 
过 程 ， 可 以 得 出 下 面 这 个 公式 。 























O00 O00 
XW)=X" TV 
人 ) < ) 





关于 偏差 项 的 损失 梯度 
在 全 连接 神经 网 络 中 计算 相对 二 偏差 项 的 损失 导数 时 ， 为 什么 要 沿 axis =0 进行 求 和 ? 接 
下 来 将 对 这 个 问题 展开 讨论 。 
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当 发 生 下 面 这 种 情况 时 ， 要 在 神经 网 络 中 添加 一 个 偏差 项 假设 有 一 批 数据 ， 这 些 数据 由 
维度 为 n 行 ( 批 次 大 小 ) 乘 以 f 列 (特征 数量 ) 的 矩阵 表示 ， 我 们 向 每 个 f 特征 都 添加 一 
个 数字 。 例 如 ， 第 2 章 的 神经 网 络 示例 有 13 个 特征 ， 偏 差 项 B 有 13 个 数字 。 第 1 个 数字 
将 添加 到 M1 = np.dot(X，weights[W1]) 的 第 1 列 的 每 一 行 ， 第 2 个 数字 将 添加 到 第 2 列 的 
每 一 行 ， 以 此 类 推 。 另 外 ， 在 神经 网 络 中 ，B2 将 包含 一 个 数字 ， 该 数字 会 直接 添加 到 M2 
每 一 列 的 每 一 行 中 。 这 样 一 来 ， 由 于 和 矩阵 的 每 一 行 都 添加 了 相同 的 数字 ， 因 此 在 后 向 传递 
时 ， 需 要 沿 某 个 维度 对 梯度 进行 求 和 。 这 就 是 为 什么 我 们 说 axis=9 对 dLdB1 和 dLdB2 的 表 
达 式 进行 求 和 ， 例 如 ，dLdB1 = (dLdN1 x dN1dB1).sum(axis=0)。 图 A-1 是 对 这 些 内 容 的 可 
视 化 说 明 ， 其 中 附 有 一 些 注释 。 




















Xb Xt by O41 Ow, y 
21 0, Oy 
经 | . := BiasAdd 运 算 的 输出 
tb Xt by OO. O， O 


2 nf 
包括 包括 ”包括 


11 12 1f 


与 输出 成 正比 (OO ep oo 
1 与 输出 成 正比 (O24O,g*t…+O, 2p) 
[51, 25,… 0 的 总 梯度 是 沿 行 (axis = 6) 的 输出 梯度 之 和 




















图 A-1: 在 计算 全 连接 层 的 输出 相对 于 偏差 的 导数 时 ， 关 于 沿 axis = 0 求 和 部 分 的 说 明 


通过 和 矩阵 乘法 进行 卷 积 
本 节 将 展示 如 何 用 批量 矩阵 乘法 来 表示 批 次 和 多 通道 卷 各 运算， 从 而 在 Numpy 库 中 高 效 
地 实现 它 。 


要 了 解 卷 积 的 工作 机 制 ， 可 以 参考 全 连接 神经 网 络 在 前 向 传递 中 执行 的 操作 。 











1. 接收 大 小 为 [batch_size，in_features] 的 输入 。 
2. 将 其 乘 以 大 小 为 [in_features，out_features] 的 参数 。 
3. 得 到 大 小 为 [batch_size，out_features] 的 输出 。 





卷 积 层 执行 的 操作 则 不 同 ， 如 下 所 述 。 


1. 接收 大 小 为 [batch_size，in_channeLs，img_height，img_width] 的 输入 。 

2. 使 用 大 小 为 [in_channels，out_channels，param_height，param_width] 的 参数 对 其 进 
行 卷 积 。 

3. 得 到 大 小 为 [batch_size，in_channels，img_height，img_width] 的 输出 。 
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使 卷 积 运 算 看 起 来 更 像 常规 前 馈 运算 的 关键 是 首先 从 输入 图 像 的 每 个 通道 中 提取 img_ 
heightXimg_width 个 “图 像 块 "。 一 旦 提取 了 这 些 图 像 块 ， 就 可 以 重 塑 输入 ， 从 而 使 用 
NumPy 库 中 的 np.matmul 函数 将 卷 积 运算 表示 为 一 个 批量 矩阵 乘法 。 具 体操 作 如 下 。 


def 








_get_ image patches(imgs_batch: ndarray, 
fil_size: int): 
imgs_batch: [batch_size, channels, img width, img_height] 
fil_size: int 
# 填充 图 像 
imgs_batch_pad = np.stack([_pad_2d_channel(obs, fil_ size // 2) 
for obs in imgs_batch]) 
patches = [] 
img_height = imgs_batch_pad.shape[2] 


# 针对 图 像 中 的 每 个 位 置 执行 的 操作 
for h in range(img height-fil size+1): 
for w in range(img height-fil_size+1): 





# 获取 大 小 为 [fil_size，fil_size] 的 图 像 块 
patch = imgs_batch pad[:, :, h:h+fil_size, w:w+fil_size] 
patches .append(patch) 











# 堆 又 ， 获 取 一 个 大 小 为 
# [img height * img width, batch_size, n_channels, fil_size, fil_size] 的 输出 
return np.stack(patches) 





然后 ， 可 以 通过 以 下 方式 计算 卷 积 运算 的 输出 。 


1. 获取 大 小 为 [batch_size, in_channels, img_height x img width, filter_size, filter_ 
size] 的 图 像 块 。 


2. 将 其 重 塑 为 [batch_size, img_ height x img width, in_channels x filter_size x 














fiLLter_size]。 


3.， 将 参数 重 塑 为 [in_channels x filter_size x filter_size, out_channels]。 
4. 进行 批量 矩阵 乘法 后 ， 结 果 将 为 [batch_size, img_height x img_width, out_channels]。 
5. 将 该 结果 重 塑 为 [batch_size, out_channels, img_height, img_width]。 








def output matmul(input_: ndarray， 
param: ndarray) -> ndarray: 

conv_in: [batch_size, in_channels, img width, img_height] 
param: [in_channels, out channels, fil width, fil_height] 
param_size = param.shape[2] 

batch_size = input_.shape[0] 

img_height = input_.shape[2] 

patch_size = param.shape[0] * param.shape[2] * param.shape[3] 
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patches = _get_image_patches(input_，param_size) 


patches_reshaped = ( 
patches 
.transpose(1, 0, 2, 3, 4) 
.reshape(batch_size, img_ height * img_height, -1) 


) 
param_reshaped = param.transpose(0, 2, 3, 1).reshape(patch_size, -1) 
output = np.matmul(patches_reshaped, param_reshaped) 
output_reshaped = ( 
output 
.reshape(batch_size, img _ height, img_ height, -1) 
.transpose(0, 3, 1, 2) 
) 
return output_reshaped 
那 是 前 向 传递 ! 对 于 后 向 传递 ， 必 须 同时 计算 参数 梯度 和 输入 梯度 。 同 样 ， 我 们 可 以 借鉴 
全 连接 神经 网 络 中 完成 此 运算 的 方式 。 从 参数 梯度 开始 ， 全 连接 神经 网 络 的 梯度 为 : 





np.matmul(self.inputs.transpose(1, 0), output_grad) 


可 以 就 此 推算 卷 积 操作 中 后 向 传递 的 实现 方式 。 这 里 ， 输 入 形状 为 [batch_size， ;in_channets， 
img_height， img_width] ， 接 收 到 的 输出 梯度 为 [batch_size，out_channeLs， img_height， 
img_witdth]。 考 虑 到 参数 的 形状 为 [itn_channets，out_channeLs，param_hetight， param_ 
width] ， 可 以 通过 以 下 步骤 实现 这 个 转换 。 





1. 必须 从 输入 图 像 中 提取 图 像 块 ， 从 而 获得 与 上 次 相同 的 输出 ， 其 形状 为 [batch_size， 
in_channels, img_height x img_width, filter_size, filter_sizel]。 

2. 与 全 连接 场景 中 的 乘法 类 似 ， 将 其 形状 重 塑 为 [in_channels x param_height x param_ 
width, batch_size x img_height x img_width]。 

3. 重 塑 输出 形状 ， 即 由 最 初 的 [batch_size，out_channels，img_height，img_width] 变 为 
[batch_size x img height x img _ width, out_channels]。 

4. 将 它们 相 乘 ， 得 到 形状 为 [in_channels x param_height x param_width, out_channels] 
的 输出 。 

5. 重 塑 这 个 输出 以 获得 形状 为 [in_channeLs，out_channeLs，param_hetight，param_width] 
的 最 终 参 数 梯度 。 




















具体 实现 过 程 如 下 : 


def param grad_matmul(input_: ndarray, 
param: ndarray， 
output_grad: ndarray): 
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另外 ， 


input_: [batch_size, in_channels, img width, img_height] 
param: [in_channels, out channels, fil width, fil_height] 
output_grad: [batch_size, out_ channels, img width, img_height] 


param_size = param.shape[2] 

batch_size = input_.shape[0] 

img_size = input_.shape[2] ** 2 

in_channels = input_.shape[1] 

out_channels = output_grad.shape[1] 

patch_size = param.shape[0] * param.shape[2] * param.shape[3] 
patches = _get image patches(input_, param_sizes) 


patches_reshaped = ( 
patches 
.reshape(batch_ size * img size, -1) 


) 


output_grad_reshaped = ( 
output_grad 
.transpose(0, 2, 3, 1) 
.reshape(batch_ size * img size, -1) 


) 
param_reshaped = param.transpose(0, 2, 3, 1).reshape(patch_size, -1) 


param_grad = np.matmul(patches_reshaped.transpose(1, 0),， 
output_grad_reshaped) 


param_grad_reshaped = (人 
param_grad 
.reshape(in_channels, param size, param size, out channels) 
.transpose(0, 3, 1, 2) 

) 


return param_grad_reshaped 


这 里 模拟 全 连接 层 中 的 运算 ， 通 过 遵循 一 组 相似 的 步骤 来 获得 输入 梯度 : 


np.matmul(output_grad, self.param.transpose(1, 0)) 


以 下 代码 计算 输入 梯度 : 


def input grad_ matmul(input_: ndarray, 


param: ndarray, 
output_grad: ndarray): 


param_size = param.shape[2] 

batch_size = input_.shape[0] 
img_height = input_.shape[2] 
in_channels = input_.shape[1] 


output_grad_patches = _get_ image patches(output_grad, param_size) 
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output_grad_patches_reshaped = ( 

output_grad_patches 

.transpose(1, 0, 2, 3, 4) 

.reshape(batch_size * img_ height * img_height, -1) 
) 


param_reshaped = ( 
param 
.reshape(in_channeLs，-1) 


) 


input_grad = np.matmuL(output_grad_patches_reshaped， 
param_reshaped.transpose(1, 0)) 


input_grad_reshaped = ( 
input_grad 
.reshape(batch_size, img height, img_height, 3) 
.transpose(0, 3, 1, 2) 

) 


return input_grad_reshaped 


3 个 方法 构成 了 Conv2D 运算 的 核心 ， 它 们 分 别 是 _output、_param_grad 和 _input_grad， 
可 以 在 随 书 文件 提供 的 lincoln 库 中 找到 它们 。 
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